OKEx欧易“躲过”19日与24日全网故障 原因是什么
主要采用阿里云服务器,以及处理高并发能力相对较强,是OKEx躲过这两次危机的原因。
众所周知,19日因东京AWS节点故障,几乎所有中国交易所都出现了故障。
其中火币传闻由于“为了追求速度牺牲了高可用,强制要求所有服务全部迁移至单可用区,即此次故障的C区,于此同时并没有快捷有效的紧急应对预案,一旦出现单区故障,需要将所有服务迁移出去,数据也需要重建,时间成本非常高”,导致出现了非常严重、时间较长的全网宕机。
尴尬的是,22日由于出现剧烈波动行情,火币再次首先出现全网故障,币安等紧随其后。过去一段时间来说,只要行情出现剧烈波动,币安往往第一个出现问题。因此何一也在社群表示,求推荐参与王者荣耀、双十一的技术人员,来解决高并发问题。
加密货币交易所虽然和传统金融软件相比用户数并不多,但也有很多独特的地方,例如是7乘24小时不间断交易、有来自全球的用户、行情常常突发剧烈波动等。尤其是像币安这样的全球性交易所,更容易出现故障。
此次很多人在讨论,三大交易所中近期相对低调的OKEx,确实在这两次几乎全网的故障中全身而退,显得有些与众不同。也有用户嘲笑OKEx流量变小所致。这似乎不合逻辑,因为二线交易所例如抹茶、库币、Gate也多次出现了故障。
OKEx坊间传闻更重视技术。无论如何,这两次全网宕机OKEx能够相对独善其身的原因到底是什么?我们听听OKEx自己是怎么看的。吴说区块链采访了OKEx相关技术负责人,内容相对平实,以下采访内容代表OKEx方面观点。
1、19日AWS节点故障,OKEx为何没有出现问题?
回复:OKEx其实也有业务跑在AWS上,但更多服务在香港的阿里云服务器,所以此次没有出现故障。选阿里云是历史原因,因为用得更熟悉,服务更好一些。但也不见得这是优势,因为过往阿里云也出现过类似的(故障)问题。无论如何,如果真的存在将所有服务迁移到单一可用区,这肯定不是一个理性的行为。
2、22日因为流量激增,OKEx没有出现问题,原因是什么?
回复:我们很少因为突发的流量宕机,我们团队还是认为,OKEx的系统稳定性会更好一些。系统要达到高等级的服务质量,是一个需要从顶层设计到体系化执行的过程。一般来说,系统服务稳定性,通常用SLA指标来衡量。比如,我们所说系统稳定性达到4个9,即99.99%,表示的含义是每年系统服务中断的时间在50分钟以内(指突发情况,不包括主动维护),我们可以比较接近这个数字。
3、也有观点认为,是因为OKEx流量相对较小,所以才没有出现宕机?
回复:从数据上来看,OKEx现货方面会稍低一些,但合约衍生品和竞争对手相比是可以的,还有一些优势。不出现宕机的原因,我们认为还是自身技术能力和交易系统性能更好一些,能承担的并发量更大。
4、OKEx其实在17-18年也出现了一些问题,但近两年来确实相对不错,请问是什么原因?
回复:我们很少因为突发的流量宕机,不过去年最后一个月故障比较多,主要是我们准备上统一账户,升级维护比较频繁。
技术发展和升级有一个过程,具体的进步不太方便细说,但确实是在技术和风控上有了很多调整。
例如采用标记价格机制。在计算中采用了移动平均值机制,这一机制可以平滑过滤短时间内的合约价格波动,有效减少了市场中异常波动产生的不必要强制平仓。最新推出的底层交易系统3.0版本,相较前一版本延时降低,瞬时成交峰值超过100万次/分钟,相较老系统稳定性、并发能力都有很大提升。
5、统一账户的推进受到了很多讨论,但也有人认为存在技术与风控上的难点,你怎么看?
回复:统一账户的确业务更复杂了,风控逻辑也更复杂了。统一账户也是有不同模式的,如果用户选择更激进的账户模式,有可能造成较大的损失,但是也有比较独立的模式。目前统一账户已经上线,老用户会陆续切换过来,我们认为技术上的难点已经解决。