《我们是怎么处理一次真实网络故障的》
没有任何一家机房可以保证永远不出问题,区别只在于,问题出现时,是混乱失控,还是有条不紊。 前段时间,美国节点有一次上游线路出现异常波动。最开始的表现只是部分方向访问变慢,而且不是所有客户都有明显感觉。这种问题如果处理不好,很容易拖成大范围故障。
没有任何一家机房可以保证永远不出问题,区别只在于,问题出现时,是混乱失控,还是有条不紊。 前段时间,美国节点有一次上游线路出现异常波动。最开始的表现只是部分方向访问变慢,而且不是所有客户都有明显感觉。这种问题如果处理不好,很容易拖成大范围故障。
很多人对“服务器运维”的理解,还停留在出了问题修一修,平时基本不用管。但实际上,真正想把一个机房节点长期跑稳定,日常做的事情远比想象中要琐碎得多。
从我们的经验来看,一台服务器适不适合长期使用,其实不用跑太久,很多时候半年左右就能看出大概。 如果一台服务器在前几个月就开始频繁出现网络波动、偶发中断、性能不稳定的问题,那么后面大概率只会越来越折腾,而不是突然变好。
在 1bgp 做服务器和机房服务这么多年,其实我们见过各种各样的客户。有些客户用得很稳,几年都不怎么需要我们操心。有些客户则经常遇到各种问题,换来换去,始终不太满意。
如果你问我们,1bgp 的客户主要是怎么来的,其实有一个很现实的答案,就是相当一部分客户,并不是一开始就选了我们,而是在别的地方用了一段时间之后,遇到了各种问题,才最终换过来的。