多么痛的領(lǐng)悟!順豐誤刪數(shù)據(jù)庫,人靠不住,只能靠技術(shù)
發(fā)布人:scutech 發(fā)布日期:2018-09-20 16:06:48 點擊數(shù):4018
昨日,從順豐傳出來的這封郵件傳遍IT圈,簡意是:一位高級運維人員搞錯了一條命令,誤刪了某個數(shù)據(jù)庫,數(shù)據(jù)無法恢復,后果太嚴重了,順豐只好讓他被動跑路。
大家在群里展開熱烈討論:
僅僅是因為敲錯一條命令或小失誤而導致數(shù)據(jù)丟失,嚴重影響業(yè)務連續(xù)性的事件也不在少數(shù):
2017年2月,Gitlab.com的某同學工作至深夜,在解決ddos攻擊過程中,命令錯誤地敲在了生產(chǎn)環(huán)境上,導致300GB數(shù)據(jù)被刪除,雖然極力挽回,但最后仍然丟了6個小時的數(shù)據(jù)。
2017年3月,AWS也曾發(fā)生過類似的誤操作,某工程師在調(diào)查Northern Virginia Region上S3的一個和賬務系統(tǒng)相關(guān)的問題,因為有一條命令搞錯了,導致了移除了大量的S3的控制系統(tǒng)。
2018年4月,Kuriko由于機房運維人員的rm -rf /*命令,導致宿主機上所有數(shù)據(jù)丟失,Kuriko使盡一切辦法,嘗試恢復原有數(shù)據(jù)以及獲取備份資料,但恢復可能較小。
要避免以上問題,小編給出三點建議:
相信科技的力量,而不只是管理
事件中,有人認為最應該解雇的是運維主管,應該設(shè)置更多的審批流程和權(quán)限,甚至用價值觀來教導工程師等等。
小編認為,這些手段不是不好,但會導致企業(yè)的運營效率降低,增加人員成本,而且不能從根本上解決問題。
作為技術(shù)人員,解決問題的最好方式是通過技術(shù)手段,而不只是使用更多的人肉手段。人類區(qū)別于動物的差別在于會發(fā)明和使用現(xiàn)代化的工具。
我們應當更多的相信技術(shù)而不是管理。相信技術(shù)會用技術(shù)來解決問題,相信管理,那就只會有制度、流程和價值觀來解決問題。
推行自動化的數(shù)據(jù)保護技術(shù)
一個老運維說,誤刪數(shù)據(jù)庫事件在自己的職業(yè)生涯里,碰見過不少于10次,特別是在多個終端操作的時候,特別容易出錯。備份固然重要,但更重要是知道如何備份。
人都會有犯錯的時候,誤操作會導致數(shù)據(jù)丟失。但也有很大一部分誤操作,是發(fā)生在數(shù)據(jù)恢復的過程中,更可怕地會導致數(shù)據(jù)永久丟失。透過敲代碼的方式來實現(xiàn)數(shù)據(jù)保護是靠不住的,所以竭盡全力推動運維自動化,應該是所有運維人最應該干的事。
最重要的是選擇對的工具??!
鼎甲自動化的數(shù)據(jù)保護、數(shù)據(jù)管理工具,確保企業(yè)在IT運維過程中,數(shù)據(jù)零丟失,系統(tǒng)高可用,業(yè)務不中斷。
數(shù)據(jù)保護平臺——DBackup
中國郵政兩大省級公司(廣東、江蘇),已經(jīng)透過尖端的技術(shù),做好了自動化的數(shù)據(jù)保護工作,防患于未然。
透過鼎甲數(shù)據(jù)保護平臺DBackup,可以保障企業(yè)的IT系統(tǒng)數(shù)據(jù),在遭遇人為誤操作、病毒攻擊、軟硬件故障、自然災難時,能得到完整、準確、快速的恢復。
運維人員只需要提前設(shè)置好備份策略,DBackup便可以實時、自動化地對數(shù)據(jù)進行備份,包括操作系統(tǒng)、數(shù)據(jù)庫、應用、文件、虛擬機等各類數(shù)據(jù),無需運維人員手動開展,杜絕誤操作。
此外,一旦遭遇故障導致數(shù)據(jù)丟失。透過DBackup,可以一鍵快速恢復到任意時間點的數(shù)據(jù),同樣無需復雜的人手工作,保證業(yè)務的連續(xù)穩(wěn)定,徹底杜絕以上事件的發(fā)生。
CDM數(shù)據(jù)副本管理工具——InfoSemper
DBackup結(jié)合CDM數(shù)據(jù)副本管理工具InfoSemper,更是超越傳統(tǒng)數(shù)據(jù)保護的價值,激活數(shù)據(jù)副本潛能。
中國郵政江蘇省公司,率先透過InfoSemper,使數(shù)據(jù)副本不只用于數(shù)據(jù)備份和恢復,更是可以自動化地進行快速共享,給不同人員在開發(fā)測試、報表分析、商業(yè)智能等場景中使用。關(guān)鍵是數(shù)據(jù)副本共享的速度非???,可達分鐘級數(shù)TB的速度,共享過程絲毫不會影響業(yè)務的連續(xù)性和穩(wěn)定性。
運維人員從此解放雙手,避免繁瑣的數(shù)據(jù)管理工作。
我們都知道能備份的數(shù)據(jù)不一定能恢復,做備份但不可恢復,更是耍流氓。透過InfoSemper,可以作為數(shù)據(jù)恢復演練的手段,定期驗證數(shù)據(jù)恢復的有效性,保證數(shù)據(jù)零風險。
透過以上神器,100%能保證數(shù)據(jù)的安全性。
此外,說一個題外話,一個高級工程師的價值不在于寫過多少代碼,而是踩過多少坑,受過教訓,積累了寶貴經(jīng)驗。