已经很多场合说过普通运维在未来5年内是要消亡的言论。只有大型IT企业才会需要专职的运维,就跟网络工程师的消亡是一样的道理。

先看看运维对于一个公司的价值是在哪里。

成本: 一般而言运维是花钱的部门,控制成本自然是从多方面都要做。购买云服务和各种固定资产,一个合格的运维自然懂得最高性价比的东西,之前我们这些每年省下的钱招5个工程师,或者加20个服务器都有富余。

控制成本另外是减少产品成本,之前有过一个很简单的例子是,产品要求点播节目单是实时推送的,这个算出一个很大的天文数字来,但是如果我们改成5分钟推送一次,这样可以降低80%的费用,而且本来这个节目单的变更也不是非要实时的。除非你们家产品完全没有成本压力,不然很明显知道选哪个。

数据驱动:之前在做SNS的时候,会把每个广告位进行编号,总能发现一些位置的点击率就是比另外的高,而在带宽支出是一样的情况下,很明显推算出哪些是需要提高价格投放,哪些是降低价格,至于DSP这样的就另说了。

技术架构:

稳定,安全,高效,复用,冗余是运维要考虑的出发点,这个跟大部分开发的出发点是不一样的。

稳定的意思是说,这个东西是大家熟悉的,迭代过多年的,在高可用方面有成熟的方案。

之前我们有用redis要当存储,虽然redis本身有bgsave,那时候也没有redis cluster,哨兵浪费机器有点多,还有IP切换等问题,但是redis本身又不适合作为最终存储,但是开发人员为了要在99.9%请求要在2ms内返回,那就只能用这个,但是数据的安全性就必须要处理,那就得跟开发一起讨论了,最终讨论出来基于一致性hash的redis集群,一致性hash在redis客户端进行实现,每个key至少存放2份,同时加上redis node的监控(响应时间,内存剩余),这样这个系统在上线前我们基本就心中有底了。

效率

对于外面人来看这个就是救火的速度。但是对于内部来说一个是平时的演练,另外就是一个自动化的程度。这个一定是自己来做的,因为当平时没有故障的时候,这些东西是完全看不出的。

随着现代应用越来越复杂的趋势,要做好故障演练,benchmark这些是非常耗费资源和人力的。

安全

同效率一样,这个只有大公司才会重视的,当初创公司连业务都做不完谁会去关心这个呢,而且这两项都是需要花钱的。

安全一个是对外的安全,比如外部防火墙和入侵检测,DDOS这些。另外一个是内部的安全:账号密码管理,操作审计,备份安全等等。

同样这个也是平时根本看不出成绩,

Share Your Thought