欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

识谣言、辨假货 人工智能已活跃在打假一线

科普小知识2022-07-11 10:24:34
...

"当真相穿鞋时,谎言已经传遍了整个城市."在现代社会,虚假新闻、图片、视频甚至商品都通过互联网渠道迅速传播。根据最近发布的《中老年人上网及风险互联网调查报告》,近60%的中老年人曾遭受过网络谣言的侵害。

人们常说“谣言止于智者”。为了避免被网上的谣言和谣言所迷惑和伤害,首先需要科学筛选,人工智能目前正试图发挥这一作用。那么,在防伪的第一线,人工智能技术如何才能被用来消除虚假和保护真实呢?这种“技能”可以应用于哪些领域?

海量信息被发布,传统的谣言识别模式受到限制。

“产生虚假信息有两个主要动机:一是利益驱动。2018年发表在《科学》杂志上的一项研究发现,为了达到同样的传播深度,虚假信息的速度是正常信息的20倍;另一个是政治驱动。在当前的互联网经济中,高效的通信代表着高经济价值。人工智能技术将被不法分子用来控制公众对政治的感知和判断,从而控制舆论,威胁政治安全。研究显示,在2016年美国总统选举期间,接受采访的普通选民每天都会接触到四篇虚假新闻。据信,虚假消息影响了2016年美国大选的结果和英国退出欧洲的投票。”中国科学院计算研究所副研究员、博士生导师曹娟在最近于北京举行的女性代码讲座上做了介绍。

为了减少虚假信息,有必要对网络新闻进行认证。然而,大型信息聚合平台的每日新闻发布量一般超过50万条。显然,仅仅依靠手动身份验证是不现实的。面对公众,迫切需要建立一个高效的人工智能谣言识别平台。

根据杜克大学新闻研究中心的一项调查,截至2018年2月,全球共有149个活跃的事实核查新闻初创项目,其中74个在北美和欧洲,7个在亚洲。然而,在一些国外的社交平台上,已经有了自动化的可信度评估插件来显示信息的可信度。

据了解,国内现有的识别和辟谣平台基本上依赖于专家识别模式,存在一定的问题:线索的发现主要依赖于用户报告,数量和及时性有限,往往是在事件造成负面影响后才实现“后见之明”。此外,新闻认证的速度需要提高。据脸书统计,依靠专家来否认谣言的认证模式平均落后3天,错过了否认谣言的最佳时机。覆盖范围有限,专家只能在自己的专业领域反驳谣言,专家数据库的多样性决定了人工辟谣平台能力的上限。

为了提高谣言识别的效率,中国科学院计算机研究所、阿里、腾讯等许多企事业单位已经开展了人工智能谣言识别。自2013年以来,曹娟带领团队开展了基于人工智能技术的虚假信息检测研究。她介绍说,人工智能谣言识别公共平台可以自动发现可疑线索并及时进行认证,大大减少了谣言可能带来的危害。借助机器学习算法和人工评审,只需1分钟即可对可疑谣言事件进行预警。基于数据驱动的方法,该平台还可以不断发现不同类型谣言的特征,实现各种谣言的自动识别。

然而,应该指出的是,“虚假信息的识别是一个非常复杂的问题。一方面,虚假信息的定义不明确,需要不确定性建模;另一方面,标记非常困难,需要小样本学习方法。目前,机器学习算法的准确性还不足以完全取代人类,但它已经可以帮助人类更快更好地浏览新闻。”曹娟说道。正如扎克伯格所说,“完全依靠人工智能来审查内容可能需要5-10年。”

多模态、多层次、多角度提取虚假新闻

“虚假新闻往往表现出从选题、文字表达到版面编排的强烈煽动性:话题一般集中在社会热点或争议点;文字描述中的情感是强烈的;布局具有视觉效果等。”曹娟解剖了一下。

曹娟表示,目前,中国科学院计算研究所开发的辟谣平台已经积累了数万条虚假新闻信息,并已通过了数十万次认证。根据平台积累的数据,从新闻质量的角度来看,虚构的新闻文本大致可以分为三类:一类是完全虚构,通常是在真实的实体上虚构情节;后一半是真的,后一半是假的。描述的前半部分可能是真的,后半部分可能引发不可靠的想象,或者部分可能是真的,但它给关键情节增加了燃料。事件本身可能存在,但出版商故意模糊甚至篡改了最初事件的时间和地点,使人们认为事件只是发生在当地。

除了写作欺诈,越来越多的图片和视频被伪造。“我们将虚假的新闻发布图片分为重复使用的过时图片、可能导致歧义的误导性图片和伪造的图片。虚假新闻的特点通常是缺乏新闻元素、图像质量低、色情和敏感的广告及其他粗俗信息,以及图片和文本之间的不匹配。例如,一些虚假的新闻图片将会显示全屏火灾、下陷的道路和深坑、被遗弃的男孩在垃圾废墟前哭泣的图像。曹娟描述道,“谣言往往像病毒一样传播,而真正的新闻传播得更慢,更具爆炸性。”

"从核心技术来看,人工智能依靠“三打”来识别谣言."曹娟说,首先是多模态数据。在从发布和传播谣言到驳斥谣言的生命周期中,谣言可能伴随着多模态数据,如人物、图片、视频、通信网络、参与用户属性等。每个模态数据都可以不同程度地指示谣言,如谣言人物的情感倾向、图片的视觉冲击、传播网络的结构属性等。然而,没有一个模态数据具有独立和完整的谣言指示能力,因此应该尽可能多地获得不同的模态数据。

第二是多层次表达。深度学习技术具有很强的表征学习能力。人工智能模型通过设计神经网络结构和融合机制,能够在面对多种不同意义、形式和结构的模态数据时,综合不同层次的数据,自动找出最具识别能力的表征组合,将待识别物品对应的文字、图片和通讯网络融合投影到特征空间中。

第三,从多角度来看,人工智能可以从单一方面(如内容、用户、传播)给出可信度,也可以综合观察给出综合信息的可信度,从而帮助人们及时“发现”可信度较低的信息。

基于专家经验的虚假商品识别

曹娟表示,除了识别虚假新闻和虚假图片,人工智能的虚假检测技术还可以应用到对虚假商品的检测上,比如基于视觉信息技术的一些高端商品的真伪识别。

2017年,纽约大学成功开发了一种假身份识别系统Entrupy。用户使用配有微型照相机的手持设备对识别出的物品拍照。该系统使用机器学习算法来分析图像,并最终确定产品的真实性。该公司的联合创始人表示,除了钻石和折射表面无法检测的瓷器之外,这项技术还利用光学分析来测试汽车零件、手机、充电器、耳机、夹克和鞋子,甚至原油。

最近,中国科学院计算技术研究所和国内一家奢侈品电子商务公司宣布联合建立一个联合实验室,探索智能认证、智能内容分发、商品在线认证等内容。那么,人工智能如何区分真假商品,比如包和鞋?人工智能能代替鉴定假冒产品的专家吗?

“与人们识别假冒产品相比,人工智能在强度和效率方面表现突出。例如,专家们通常只能识别一天五六个假冒的LV包,而人工智能只需要几分钟就能筛选出一个包。在实际操作中,人工智能首先在大量筛选中发现异常情况,报告警告错误,然后专家进行进一步筛选。也就是说,人工智能技术主要用于打击假冒商品,辅以人工审计。人工智能不能取代专家。”曹娟说道。

曹娟说,虚假商品检测可以形式化为一个异常检测问题。真实样品通常很大,但仿制品很小,甚至为零。此时,只能对大量的正品进行建模和表达,然后确定待测样品与正品相比是否有异常。然而,简单的数据学习是困难的,识别应该结合专家的经验和知识来指导模型学习快速定位异常区域的能力。同时,由数据驱动的模型发现的视觉规则也将反馈给专家。因此,这是专家和模型之间相互学习和迭代改进的过程。(记者华玲)