谷歌想利用AI来对付网络暴民,这事儿靠不靠谱
谷歌有一个雄心勃勃的计划,利用人工智能来删除侮辱性的评论和抵制网络暴民。尽管目前的技术无法应对这些挑战,但它有助于完善已经非常标准化的互联网社区。
人类已经摧毁了互联网。网络欺凌、骚扰性评论、社会羞辱和攻击性言论像瘟疫一样在Twitter和Reddit等网站上传播,尤其是当你碰巧受到错误的关注时。
提供在线服务的公司正被指责忽视骚扰言论和压制言论*。然而,谷歌现在相信人工智能可以用来减少这种数字评论造成的悲剧。公司的技术孵化器Jigsaw(前谷歌思想,谷歌智囊团)正计划通过一个自动化程序“对话人工智能”来识别和删除数字骚扰信息。
正如拼图公司负责人贾里德·科恩(Jared Cohen)所言,“我想利用我们拥有的最好的技术来应对那些战争线索和不恰当的战术(这些不恰当的方法让那些敌对的声音变得不相称),并尽我们所能提供一个公平的环境。”
谷歌的举动显示了它的大胆,这个计划不同于Jigsaw之前的工作。Jigsaw之前的工作包括推出Project Shield(一种免费开放的DDoS拦截服务),旨在保护新闻网站和促进言论*的网站免受拒绝服务攻击。Jigsaw的另一项成就是密码警报,它是一个Chrome插件,旨在确保用户密码的安全性,防止网络钓鱼攻击。
这些是主要的技术挑战,但是战争海报和网络暴民的引入已经成为一个社会学问题。
对话人工智能是谷歌“登月”项目中最成功的项目之一,也是“谷歌大脑”的一个分支。一方面,对话人工智能通过大规模神经网络给机器学习领域带来了革命性的发展。同时,它也使谷歌有更多的优势,比如在图像识别领域比人类更有技巧。然而,对于网上的谩骂,人工智能对话无能为力。
尽管Jigsaw的目标是“打击网络暴民的崛起”,但该项目本身目前过于温和,因此Jigsaw离成为合格的项目还有很长的路要走。对话人工智能将主要用于简化目前主要由人类完成的社区审查过程,因此即使不能根除那些不良网络行为,它也能为一些网站积累更多更好的评论。
暗示性话语的检测
几个月后,Jigsaw将率先在《纽约时报》网站上应用对话人工智能,帮助该公司管理在线评论。目前,《纽约时报》的所有者必须审查其网站上发布的几乎每一条评论。
现在,对话人工智能正在阅读1800万条这样的评论,并学习如何检测被拒绝的评论,包括没有实质性内容的评论、偏离主题的评论、垃圾内容、煽动性的、攻击性的评论、包含淫秽信息的评论等。
《纽约时报》的目标不是尽量减少评论中的谩骂,因为这个问题目前已经得到控制。相反,《纽约时报》希望减少人工主持人的工作量。"我们不指望有一个完全自动化的系统."《纽约时报》社区团队项目经理埃里卡·格林说。
《纽约时报》的社区编辑Bassey Etim估计,最终大约50% ~ 80%的评论可以被自动审查,从而允许人工主持人将更多精力投入到其他部分。
与实时免费网站Twitter和Reddit不同,纽约时报网站面临着其他问题。考虑到当前机器学习的局限性,对话人工智能仍然无法有效地打击网络空间中存在的辱骂性言论。
尽管机器学习取得了辉煌的成就,但它仍然没有破解人类语言。人类语言中类似围棋或图像模式的部分证明了语言的难以捉摸的本质。
滥用言语检测的语言难点是语言语境。对话人工智能的评论分析不适用于完整的讨论过程,因为它只能将个人评论与学习模式中的评论进行匹配,以确定哪些是好的或坏的。
例如,如果评论包含常用的单词、短语和其他特征,则被认为是可接受的。然而,根据格林的说法,谷歌的系统经常认为关于唐纳德·特朗普的文章中的评论是滥用的,因为他们会引用特朗普的一些评论,如果这些评论出现在读者的评论中,通常会被屏蔽。对于这些类型的文章,《纽约时报》将选择关闭自动审查机制。
因此,几乎不可能期望对话人工智能在像推特这样的开放网站上表现良好。
人工智能对话如何在发给犹太记者的辱骂性言论中发现大*的含义?这些谩骂的检测是基于机器学习算法能够检测到的历史知识和文化背景,这只有在机器学习算法已经接受了类似的训练之后才能实现。
即便如此,如果有人发来“如果特朗普赢了,我会买这个”并附上同样的图片,对话人工智能如何将它与辱骂区分开来?
事实上,这个过程所需的语义和实践知识甚至已经超过了机器学习的预期目标。
因此,毫无疑问,特殊引用将会找到一种新的方式来发布辱骂性的评论,并且这种方式可以避免像对话人工智能这样的系统。如果目标是防止评论者通过侮辱诸如“同志”之类的术语来称呼对方,机器学习可以通过阻止一些评论来达到这一目的。然而,机器学习不能识别隐喻。例如,说某人“倾向于”比喻某人是不正常的。
换句话说,对于那些已经非常标准化的社区,对话人工智能将使审计任务更加高效。
然而,如果我们想根除我们听到的最糟糕的辱骂性评论(这些评论通常出现在审计标准最低的网站上),人工智能对话似乎无能为力。
除非Twitter和Reddit等平台的性质发生改变,否则几乎不可能管理这些网站上存在的辱骂性言论。