知乎李大海：如何用AI技术打造智能社区

科普小知识2022-02-06 22:21:18

...

2018年GMIC全球移动互联网大会昨天在北京开幕，主题是“人工智能成就一切”在智能手机行业领袖峰会上，智虎的合伙人、高级副总裁李大海发表演讲，介绍智虎如何利用智能手机算法建设无线城市，提升智虎的人文价值。

李大海透露，截至今年3月底，智虎已有1.4亿注册用户，3400万日常用户，230亿月度光伏，2300万累计问题，1亿累计回复，每人1小时。然而，面对纷繁复杂的内容，智虎如何筛选高质量的用户行为，创造一个积极的社区治理闭环？李大海介绍了智能算法在智虎内容管理中的几种应用方法。

目前，智虎推出了算法机器人“瓦力”，可以自动识别回答无关问题、占坑不答、以评论为答案的行为，甚至可以识别一些不友好的评论、歧视和恶意标签。智虎还进行了一项“合理异议”功能测试，帮助瓦力机器人学会机器。此外，智虎还开发了暹罗网络结构，可以将智虎的任何回答发送出去，并很快获得反馈。

智虎还开发了一种“讽刺”的识别算法。基于深层语义理解和海量高质量的用户行为数据，首先识别用户亲密度，同时使用志湖站大量一致的用户行为语料库将行为转化为注释，从而达到“反讽”识别的效果。

关于下一步计划，李大海表示，智虎希望通过人工智能技术建立一个无线城市，并利用技术实现更准确和高效的连接。“智虎的每个用户都可以快速找到自己感兴趣的人和内容，每个高质量的问题和答案都可以快速推荐给相关人员，并快速找到有共同兴趣的用户进行交流、讨论和碰撞。”李大海说。(萧艺)

以下是智虎合伙人李大海的发言全文:

李大海:谢谢。很荣幸代表智虎参加GMIC分享会。刚才院长和李先生关于专利战略的讨论也启发了我。在深度学习引发的人工智能热潮中，人工智能算法已经应用到内容平台的各个方面，是不可或缺的一部分。业界已经谈论了很多关于人工智能算法，平台的商业价值和商业价值。今天，我想借此机会告诉大家人工智能的人文价值。

让我先介绍智虎。智虎的诞生源于一个非常简单的开始。我们认为，在信息爆炸的互联网海洋中，有价值的信息仍然稀缺。基于这一想法，我们希望建立这样一个平台，能够共享和利用用户头脑中最重要的信息。此外，这种信息也可以沉淀，当其他用户有类似的问题，我们可以很容易地找到它。这样，说话者可以更好地理解世界。

为了让用户在头脑中积极分享他们的知识、经验和观点，我们认为他们必须有一个开放和包容的讨论环境。这件事非常重要，所以从我们出生的第一天起，我们就一直用操作和产品的方法来保持良好的讨论气氛。我们也是第一个将友好作为社区规范要求的社区。这个决定非常重要，因为智虎已经成为中国互联网上最大的知识共享平台，在良好的社区讨论氛围下。我想在这里和你分享一组数字。截至今年3月底，智虎已经拥有超过1.4亿的注册用户，我们在整个平台上的日常活跃用户已经达到3400万。智虎的用户提出了2300万个问题，得到了近1亿个答案。在智虎，人与内容之间的联系达到了一种爆炸性的状态。如果我们把智湖比作一座城市，它是一座拥有数亿居民和游客的超级城市。这个城市的法律法规是我们社区的准则。在这样一个规模的城市里，我们维护法律法规或者手工操作是没有效率的，所以我们在这个时候引入了人工智能的前沿算法技术来帮助智湖的小管家团队维护社区氛围。

我们必须解决的问题都是自然语言领域的问题，也就是自然语言处理。事实上，人工智能在自然语言处理方面不如图片和其他领域，但幸运的是智虎已经积累了一个非常高质量的中文语料库。我们有大量高质量的问题和答案。同时，用户的行为本身也是非常重要的数据。你怎么理解这个？当用户来到智虎制作和消费内容时，他们也在构建社区，他们的行为是社区系统的一部分。例如，用户同意或不同意一个答案，他们报告任何内容，他们为一个问题启动一个主题，或者对该问题或主题进行公开编辑，在某种程度上我们都可以将其视为标记相应的文本语料库。有了这样的标记数据，我们可以使用有监督的机器学习算法来获得更好的语义表示，从而使我们能够达到更高的语言理解水平。

此外，这仍然形成一个正闭环。由于我们良好的社区氛围，我们在智湖的大多数用户行为都是高质量的。有了这些高质量的行为，我们将拥有高质量的注释数据，这更有利于维护或改善我们与人工智能算法的讨论气氛。

另一方面，经过七年多的运作，智湖团队在社区管理方面积累了非常丰富的经验。我们已经意识到一个社区的规范不是制定出来的，而是必须在平台和用户之间制定出来的。在这个过程中，我们了解不同用户的不同需求，然后我们可以标准化以匹配各种复杂多变的场景。如此丰富的经验对我们登陆人工智能非常有帮助。因为它可以把非常虚无主义的大气大问题分解成许多目标明确、可以解决的小问题，从而降低这个问题的难度。

我会给你看一些伤害社区气氛的例子。这些例子都相对不好，所以我不会去读。第一个是不相关的答案。所谓不相关的答案是一个远离重点的答案。这些答案通常是毫无价值的信息，有些甚至只是情感上的。因此，当读者看到他们无法获得有效的信息时，他们是在浪费时间。第二，无效的评论。看到这些有效的评论后，你应该从另一个角度思考自己。如果你是一名作家，花了半天时间写一个答案，你会有什么感觉？如果不是作者也没关系，因为读者看到了每一个精彩的答案，下面的讨论区就是这种恶臭的气氛，这实际上也不是一个好的体验。还有一种阴阳，阴阳算不了什么，但根据我们的经验，它更有害于创作者的创作热情和创作体验。这是给每个人看的。当然，这些并不是破坏社区氛围的唯一例子。我提到这些只是为了给每个人一个滚动的感性认识。经过两年多的工作，我们已经制造了一个叫做瓦力的算法机器人。目前，瓦力已经能够快速、及时地在网上应对不相关、不友好内容等低质量内容，如歧视、恶意标签、滥用等，并充分帮助智湖家政团队减少低质量内容和不相关内容对用户的干扰。为用户提供人文关怀。机器人的最佳顺从率可达99.13%。这项工作我们有两个方向。首先，我们将进一步提高不同领域的准确率和召回率。第二，我们将不断提高瓦力机器人的应用范围。

瓦力机器人能力的提高离不开我们的用户。例如，我们最近启动了一项功能测试，50，000名用户参加了测试。所谓的“合理反对”是指当用户点击“反对”时，他选择反对的理由。每次用户选择，这都是瓦力学习的新机会。在内部测试中，我们通过用户选择和瓦力的组合，选出了20，000多个不相关的答案。

让我从技术角度简单谈谈我们的瓦力机器人是如何做到的。让我们以不相关的答案为例来简单地谈谈它。当我们第一次解决这个问题时，我们使用了随机森林模型。什么是随机森林？简单地说，随机森林是一种使用随机机制生成许多分类编号的森林。它的分类编号是把这个样本放入每个编号中进行分类。例如，智虎将讨论一个问题，智虎的宠物是狗还是狐狸。这允许每棵树为自己投票。完成该模型后，我们取得了良好的效果。其准确率可达97%，是一个非常高的准确率。但是有两个问题。首先，它的召回率不高，只有58%，不到60%。这个召回率意味着什么，我们会错过坏人，并把一些不相关的答案放在网上。在这种情况下，这样的回答会给用户带来不好的体验，所以召回率是我们非常关心的事情。此外，该模型将使用用户行为的统计特征，也就是说，有多少用户点击回答或报告这一特征。这个特性有什么问题？如果你使用这个功能来分类一个新的答案，并判断它是否不相关，你必须把它放在网上一段时间，看看点击它的次数是反对还是报告。这是一个问题，因为它是在线的。如果这真的是一个不相关的答案，看到答案的用户的体验实际上已经受到了伤害，并且这种时间差是存在的。我们开发了一个模型，它是基于卵生模型的思想。这个想法是为了提高网络结构的表达能力。同时，在选择特征以避免使用上述用户行为的统计特征时，已经做了很多仔细的考虑。最终的结果是我们的召回率有了很大的提高，从60%提高到80%。同时，任何答案一发出就可以被归类。这是不是一个无关紧要的答案。当然，它也有它的缺点，它的准确率降低了，但是在这种情况下我们可以结合其他商业策略来弥补这个差距。因此，我们最终把新的模型上线，以取代旧的模型。

我们的算法团队这个月发表了三篇文章。在智虎专栏中，我们详细阐述了智虎在瓦力的机器人工作，包括这部分工作。如果你感兴趣，你可以看看智虎栏目。

我也想在这里与你们同步一些智虎在阴和杨琪领域的鉴定实践。这项工作还没有完成，但我特别想和大家保持同步，因为这是一个非常困难和有趣的问题。阴阳之气是讽刺。我们处理它的方式首先是基于深入的语义理解，也就是语义分析。但这还不够。因为从我们的实践来看，如果一句话，同样的一句话，发生在两个好朋友之间，那可能是口误和调情。但是如果是在两个陌生人之间，肯定会有敌意或不友好。因此，基于这样的思考，我们将从两个方向进行综合判断。讽刺之所以应该与每个人分享，是因为它是情绪分析领域的前沿问题，而且非常困难。因为反语是一个表达否定意义的完全肯定的词，是一种非常高级的修辞，机器人很难理解。由于谢尔顿是一名物理学家，他的智商排在全人类的前10名，而且他经常无法理解别人的讽刺。

在培训中，我们将尽可能多地将内容本身的特征输入到模型中，包括文本特征、一些数字特征、反语词汇和一些代表性特征。然而，用户的统计特征将不包括在内，原因与以前相同。我们使用的网络拓扑模型结合了美国有线电视新闻网(CNN)和美国有线电视新闻网(LSTL)。关键实际上是最后一部分。在分类级别上，我们使用来自智湖级别的大量一致数据来生成标准数据，这是我前面提到的用户行为。举例来说，简单地说，如果一个评论有许多好的用户，他们都反对，也许我们认为它是一个负面的评论。如果有许多用户同意另一个评论，这可能是积极的。在此基础上，我们可以构造大量的标注数据。我们仍在制定这样一个方案的过程中，当我们有了结果后，我们将把结果公布到智湖专栏。我们也可以关注它。当然，这个问题相对来说比较困难，我们可能要解决很多细节，这可能需要很长时间。但是没关系。我们相信，智虎将通过对用户行为的大量高质量的学习和分析，在语义和用户关系两个层面上有更深层次的建模和理解。就像讽刺前沿的突破一样，任何突破都应该对中国互联网乃至全球互联网讨论环境产生非常积极的影响。

这些是我对人工智能算法和人文价值的一些分享。开放包容的氛围非常重要。这是一片非常非常重要的土地，孕育着繁荣的文化。当然，作为一家科技公司，智虎不仅在这一领域使用人工智能，事实上人工智能技术已经广泛应用于智虎的内容生产、流通、消费等环节。我们的下一个计划是使用人工智能和人机结合来建立一个无线城市。什么是我们所说的无线城市？我们坚信每个人头脑中的知识、经验和观点是另一群人非常感兴趣和想知道的。所以智虎长期以来所做的就是建立这种前所未有的联系，满足彼此的需求。这也是智虎的第一颗心和长远愿景。我们相信，在不久的将来，智虎的每一个用户在去了智虎之后，都会很快发现自己感兴趣的人和事。他的问题可以很快被推到那些能够并且愿意回答的人满意的程度。他还可以找到让他为案件喝彩的问题，然后分享他最了解的信息，获得让他开心和满意的认可，并与有共鸣的人见面，产生更深刻的化学反应——交流和碰撞。我们将以前所未有的效率建立这种思维联系，这样每个人都可以分享、被筛选、被转化，并转化为这个时代的知识。在这种联系下，知识生产模式和迭代效率将发生质的变化，这就是我们所认为的无线城市。

在建设这样一个无线城市的过程中，我们会遇到什么样的挑战？我们有很好的数据，我们的问题也很清楚。我们的挑战主要在于人。与我们需要解决的问题相比，我们的团队、我们的团队很好，但是与这些问题相比，我们的数量还是比较少，所以我们希望业内有实力的人加入我们，共同把智湖打造成为一个具有人文价值的无线城市。谢谢大家。(结束)

关注网易智能公共号码(smartman163)，解读大公司在人工智能领域的重大事件，应用新思想、新应用。

上一篇：缝纫机灯排行榜前十名

下一篇：家用缝纫机排行榜前十名