English

多么痛的领悟!顺丰误删数据库,人靠不住,只能靠技术

昨日,从顺丰传出来的这封邮件传遍IT圈,简意是:一位高级运维人员搞错了一条命令,误删了某个数据库,数据无法恢复,后果太严重了,顺丰只好让他被动跑路。

大家在群里展开热烈讨论:

仅仅是因为敲错一条命令或小失误而导致数据丢失,严重影响业务连续性的事件也不在少数:

20172月,Gitlab.com的某同学工作至深夜,在解决ddos攻击过程中,命令错误地敲在了生产环境上,导致300GB数据被删除,虽然极力挽回,但最后仍然丢了6个小时的数据。


20173月,AWS也曾发生过类似的误操作,某工程师在调查Northern Virginia RegionS3的一个和账务系统相关的问题,因为有一条命令搞错了,导致了移除了大量的S3的控制系统。


20184月,Kuriko由于机房运维人员的rm -rf /*命令,导致宿主机上所有数据丢失,Kuriko使尽一切办法,尝试恢复原有数据以及获取备份资料,但恢复可能较小。



要避免以上问题,小编给出三点建议:

相信科技的力量,而不只是管理

事件中,有人认为最应该解雇的是运维主管,应该设置更多的审批流程和权限,甚至用价值观来教导工程师等等。

小编认为,这些手段不是不好,但会导致企业的运营效率降低,增加人员成本,而且不能从根本上解决问题。

作为技术人员,解决问题的最好方式是通过技术手段,而不只是使用更多的人肉手段。人类区别于动物的差别在于会发明和使用现代化的工具。

我们应当更多的相信技术而不是管理。相信技术会用技术来解决问题,相信管理,那就只会有制度、流程和价值观来解决问题。

推行自动化的数据保护技术

一个老运维说,误删数据库事件在自己的职业生涯里,碰见过不少于10次,特别是在多个终端操作的时候,特别容易出错。备份固然重要,但更重要是知道如何备份。

人都会有犯错的时候,误操作会导致数据丢失。但也有很大一部分误操作,是发生在数据恢复的过程中,更可怕地会导致数据永久丢失。透过敲代码的方式来实现数据保护是靠不住的,所以竭尽全力推动运维自动化,应该是所有运维人最应该干的事。

最重要的是选择对的工具!!

太阳sun网站自动化的数据保护、数据管理工具,确保企业在IT运维过程中,数据零丢失,系统高可用,业务不中断。

数据保护平台——DBackup

中国邮政两大省级公司(广东、江苏),已经透过尖端的技术,做好了自动化的数据保护工作,防患于未然。

透过太阳sun网站数据保护平台DBackup,可以保障企业的IT系统数据,在遭遇人为误操作、病毒攻击、软硬件故障、自然灾难时,能得到完整、准确、快速的恢复。

运维人员只需要提前设置好备份策略,DBackup便可以实时、自动化地对数据进行备份,包括操作系统、数据库、应用、文件、虚拟机等各类数据,无需运维人员手动开展,杜绝误操作。

此外,一旦遭遇故障导致数据丢失。透过DBackup,可以一键快速恢复到任意时间点的数据,同样无需复杂的人手工作,保证业务的连续稳定,彻底杜绝以上事件的发生。

CDM数据副本管理工具——InfoSemper

DBackup结合CDM数据副本管理工具InfoSemper,更是超越传统数据保护的价值,激活数据副本潜能。

中国邮政江苏省公司,率先透过InfoSemper,使数据副本不只用于数据备份和恢复,更是可以自动化地进行快速共享,给不同人员在开发测试、报表分析、商业智能等场景中使用。关键是数据副本共享的速度非常快,可达分钟级数TB的速度,共享过程丝毫不会影响业务的连续性和稳定性。


运维人员从此解放双手,避免繁琐的数据管理工作。

我们都知道能备份的数据不一定能恢复,做备份但不可恢复,更是耍流氓。透过InfoSemper,可以作为数据恢复演练的手段,定期验证数据恢复的有效性,保证数据零风险。

透过以上神器,100%能保证数据的安全性。

此外,说一个题外话,一个高级工程师的价值不在于写过多少代码,而是踩过多少坑,受过教训,积累了宝贵经验。





联系我们