OKEx欧易“躲过”19日与24日全网故障原因是什么

科普小知识2022-02-11 22:10:22

...

主要采用阿里云服务器，以及处理高并发能力相对较强，是OKEx躲过这两次危机的原因。

众所周知，19日因东京AWS节点故障，几乎所有中国交易所都出现了故障。

其中火币传闻由于“为了追求速度牺牲了高可用，强制要求所有服务全部迁移至单可用区，即此次故障的C区，于此同时并没有快捷有效的紧急应对预案，一旦出现单区故障，需要将所有服务迁移出去，数据也需要重建，时间成本非常高”，导致出现了非常严重、时间较长的全网宕机。

尴尬的是，22日由于出现剧烈波动行情，火币再次首先出现全网故障，币安等紧随其后。过去一段时间来说，只要行情出现剧烈波动，币安往往第一个出现问题。因此何一也在社群表示，求推荐参与王者荣耀、双十一的技术人员，来解决高并发问题。

加密货币交易所虽然和传统金融软件相比用户数并不多，但也有很多独特的地方，例如是7乘24小时不间断交易、有来自全球的用户、行情常常突发剧烈波动等。尤其是像币安这样的全球性交易所，更容易出现故障。

此次很多人在讨论，三大交易所中近期相对低调的OKEx，确实在这两次几乎全网的故障中全身而退，显得有些与众不同。也有用户嘲笑OKEx流量变小所致。这似乎不合逻辑，因为二线交易所例如抹茶、库币、Gate也多次出现了故障。

OKEx坊间传闻更重视技术。无论如何，这两次全网宕机OKEx能够相对独善其身的原因到底是什么？我们听听OKEx自己是怎么看的。吴说区块链采访了OKEx相关技术负责人，内容相对平实，以下采访内容代表OKEx方面观点。

1、19日AWS节点故障，OKEx为何没有出现问题？

回复：OKEx其实也有业务跑在AWS上，但更多服务在香港的阿里云服务器，所以此次没有出现故障。选阿里云是历史原因，因为用得更熟悉，服务更好一些。但也不见得这是优势，因为过往阿里云也出现过类似的（故障）问题。无论如何，如果真的存在将所有服务迁移到单一可用区，这肯定不是一个理性的行为。

2、22日因为流量激增，OKEx没有出现问题，原因是什么？

回复：我们很少因为突发的流量宕机，我们团队还是认为，OKEx的系统稳定性会更好一些。系统要达到高等级的服务质量，是一个需要从顶层设计到体系化执行的过程。一般来说，系统服务稳定性，通常用SLA指标来衡量。比如，我们所说系统稳定性达到4个9，即99.99%，表示的含义是每年系统服务中断的时间在50分钟以内（指突发情况，不包括主动维护），我们可以比较接近这个数字。

3、也有观点认为，是因为OKEx流量相对较小，所以才没有出现宕机？

回复：从数据上来看，OKEx现货方面会稍低一些，但合约衍生品和竞争对手相比是可以的，还有一些优势。不出现宕机的原因，我们认为还是自身技术能力和交易系统性能更好一些，能承担的并发量更大。

4、OKEx其实在17-18年也出现了一些问题，但近两年来确实相对不错，请问是什么原因？

回复：我们很少因为突发的流量宕机，不过去年最后一个月故障比较多，主要是我们准备上统一账户，升级维护比较频繁。

技术发展和升级有一个过程，具体的进步不太方便细说，但确实是在技术和风控上有了很多调整。

例如采用标记价格机制。在计算中采用了移动平均值机制，这一机制可以平滑过滤短时间内的合约价格波动，有效减少了市场中异常波动产生的不必要强制平仓。最新推出的底层交易系统3.0版本，相较前一版本延时降低，瞬时成交峰值超过100万次/分钟，相较老系统稳定性、并发能力都有很大提升。

5、统一账户的推进受到了很多讨论，但也有人认为存在技术与风控上的难点，你怎么看？

回复：统一账户的确业务更复杂了，风控逻辑也更复杂了。统一账户也是有不同模式的，如果用户选择更激进的账户模式，有可能造成较大的损失，但是也有比较独立的模式。目前统一账户已经上线，老用户会陆续切换过来，我们认为技术上的难点已经解决。

上一篇：一文带你了解Serum，FTX创始人的光环加持

下一篇：Curve治理代币本周上线，一文读懂治理代币CRV分配机制

OKEx欧易“躲过”19日与24日全网故障 原因是什么