欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 生活科普

图灵测试,测的到底是什么?

科普小知识2022-10-27 12:21:53
...

2014年6月7日发生了一件事:聊天程序“尤金·古斯特曼”在英国皇家学会举办的2014年图灵测试会议上假扮成一个13岁的乌克兰男孩,欺骗了33%的评委,从而根据图灵的原始定义“通过”了图灵测试。

不幸的是,由于这一事件给服务器带来的压力,尤金的在线对话页面已经有几天无法访问了。

但是通过考试呢?这是什么意思?

图灵测试1950年,艾伦·图灵在他著名的论文《计算机器与智能》的开头说,“我建议你考虑这个问题:‘机器能思考吗?”“但是因为很难准确定义思维,图灵提出了他所谓的“模仿游戏”:

一个普通的模仿游戏有三个人参与,一个是男的,一个是女的,两个人坐在房间里;c是房间外面的裁判。他的任务是判断谁是男性,谁是女性。但是这个人带来了任务:他想欺骗裁判,让他做出错误的判断。

然后图灵问,“如果在这个游戏中一台机器取代了这个人,会发生什么?”与人类男性和女性参与相比,这台机器更有可能愚弄审讯者吗?这个问题取代了我们最初的问题:“机器能思考吗?”“这是图灵测试的本体。

[图片来源:英国广播公司]

......等等,这些人现在在做什么图灵测试?

事实上,你可能已经注意到了图灵的真正目的。不是说“思考”不能被定义吗?没关系,让我们不要纠缠于哲学,让我们创建一个可操作的标准。如果这台机器“表现”像一个有思想的人(人类可以思考,对吗?)不能区分,那么我们可以把它看作“思考”

当然,机器在某些方面很难像人类一样,比如有血有肉——但是既然我们专注于思考,我们可以选择一个有代表性的领域,图灵选择了“模仿游戏”。

但是在1952年,在英国广播公司的一次广播中,图灵谈到了一个新的具体想法:让计算机来模拟人。如果足够多的法官(图灵选择了30%)错误地认为他们是在和一个人说话,而不是和电脑说话,那么这就被认为是成功的。

可以看出,图灵测试的核心不是“计算机是否能与人交流”,而是“计算机是否能在智力行为上与人区别开来”。假装是异性恋和假装是人类只是特例。然而,这个1952年版本的图灵测试在后世得以延续,并成为我们今天所知的唯一方法。这带来了一些问题。

中国馆图灵测试自诞生以来就产生了巨大的影响。它不仅得到支持,而且还必须受到批评。最重要的批评之一可能是约翰·塞尔在1980年的文章《思维、大脑和程序》中提到的中国房间的思维实验。

塞尔说,想象他被锁在一个房间里,手动模拟一个巨大的人工智能程序,与外界进行中文对话。这个程序被称为“懂中文”——至少,它可以通过中文的图灵测试。房间里什么也没有,只有一堆写有操作规则的纸(塞尔的原话是“纸片”)。(嗯,为了人类的利益,也许应该增加基本的生活设施…)

[资料来源:rationallyspeaking.blogspot.com]

塞尔玛不懂中文,在房间里玩符号显然无助于他学习中文,房间里也没有别的东西可以理解中文。如果塞尔不“理解”中文,那么塞尔和这堆纸不能说“理解”中文!尽管房子的中国标准足以欺骗中国用户,但没有任何实体真正“理解”发生了什么。

换句话说,所谓的图灵测试毫无用处。即使它通过了,也不能表明计算机正在思考。

然而,问题不仅限于图灵测试。根据这个实验,像塞尔这样的计算机只能识别曲折的“符号”,对这些汉字的含义一无所知。这也是计算机程序的问题,不管它们是基于硅还是基于selkie。这就等于说,一个有理解能力的强人工智能是不可能出现的!

这个思维实验乍看起来很清晰,非常直观,并且迎合了许多人的愿望——证明了人类的思维是独一无二的天赐之物,人类不能制造假货。但是在我继续之前,我认为这是错误的(遵循丹尼尔·丹内和其他人的观点)。

事实上,当塞尔在伯克利的演讲中首次提出这个实验时,一些听众反对说,被锁在房间里的人可能不明白他在处理什么,但他只是整个系统的一部分。他还有规则书、微积分纸和笔,以及一堆汉字数据库。为什么他必须理解它们而不是整个系统?

塞尔的回答是:

“这个想法是,虽然一个人不懂中文,但不知何故,他和他的纸堆在一起就能懂中文。很难想象一个没有深入意识形态的人怎么会相信这个想法。”

也许吧,但真的只有“一张纸堆”吗?

直觉泵旋钮的思想实验——用丹内的话来说叫做“直觉泵”——有一个共同的问题。它确实给出了一个直观的结论,但是这个结论来自于一个完整而详细的思想实验,而不是像普通逻辑推理那样来自于具体而明确的前提。如果这个实验的一个细节,一个你认为无关紧要的细节,欺骗了你的直觉呢?

最著名的直观泵可能是手推车问题,它是由英国哲学家费利佩·费特在1967年提出的。有五个孩子在栏杆上玩耍,一个在残疾人栏杆上玩耍。你想把车开到铁轨上,压死一个孩子来救五个孩子吗?这是道德问题上非常典型的直觉泵。但是不要认为这个实验可以完全代表你的道德立场——如果我改变一个条件,叉轨仍然在正常运行,但这辆巴士就是不去那里?如果我改变另一个条件,根本没有分叉,孩子在你身边玩耍,你能把他推下去,停下车去救另外五个孩子吗?如果那个孩子是你的亲戚呢?如果根本没有孩子,只有你自己决定是否跳下去?

[电车问题已经成为一个有着众多变化的大领域。照片来源:工人出版社]

关于直觉泵,这正是丹内的建议:研究它的细节,看看每个细节的任何变化是否会影响最终输出的直觉。用他的话说,“转动直觉泵的旋钮。”回到中国房间。塞尔说他手动模拟了一个程序的操作,但是他没有说他模拟的是什么级别。如果外面的人输入一串中文,比如“你好”,房间里的人在做什么?他在编机器码吗(把寄存器23945的内容加到寄存器93756上)?你在做源代码吗(定义常数p,使p=100)?它是伪代码吗(将句子分成名词、动词、代词和修饰语来判断是否有问题)?有什么评论要读吗?如果他在顶楼,他会明白自己在做什么吗?如果他只是一个底层的计算器,他上面的复杂层次真的可以用“一张纸堆”来概括吗?

想象一个问题:写下一个英文大写字母d,逆时针旋转90度,然后把它放在一个英文大写字母j的上面。这让你想起什么样的天气?

一个*的塞尔(或者仅仅是一个说中文的塞尔)在他的脑海中会有一个躺在J上的D的形状。当然,班上最后一名的塞尔玛对此一无所知,但是在他的计算器驱动的中文教室里,他将如何回答这个问题呢?如果这个中国房间真的通过了图灵测试,它肯定不会被这个问题所困扰——但解决这个问题的唯一方法是根据它的指令在J上放置D,比较记忆库,并判断这个形状最接近雨伞,这与雨天有关。这是塞尔玛在底层不知道的事情,但中国之家作为一个整体必须在它的“记忆”中做。这件事和塞尔解决问题时的想法有什么不同?

然而,如果你只是简单地用无害的词“一张纸堆”来描述中国的房子,你的直觉就会被误导。如果一个中国房间真的完美地通过了图灵测试,那它就真的和人类没有什么区别了,它和法官交谈时的“思考”状态一定和真人非常相似。如果图灵测试的法官决定以苏格拉底的方式教授对方的量子物理,那么当然,一个做算术的底层萨尔不会因此而学习量子物理——但中国的房间会(别忘了,它通过了图灵测试——它在智力行为上可以和人区别开来)。这就像为中国之家安装了一个新程序,可以进行简单的量子物理计算和模拟。在这种情况下,为什么你说这个房间不能理解,因为一楼的人不理解?

但是上面的论点实际上有一个问题。这些都是理想的图灵测试,图灵在1950年给出的最原始的形式。然而,这个聊天程序在2014年6月7日通过的“图灵测试”与图灵在1950年的测试并不完全相同。

如果你没有忘记刚才聊天机器人的“图灵测试”的内容,你可能还记得我们反复强调过,图灵测试的标准是“计算机在智力和行为上与人没有区别”。

然而,在现实中,如果要进行测试,就必须有规则。皇家学会的测试规则是,如果一台计算机在一系列5分钟的键盘对话中被误认为超过30%的人,那么这台计算机就被认为通过了图灵测试。尤金在2014年总共150次对话中欺骗了30名评委中的10名,比两年前高出4个百分点(所以严格来说,这不是一个大突破,只是在改进过程中跨过了一个任意的门槛)。

问题出现了:尤金的设计理念不是“一台在智力行为上与人类无法区分的机器”,而是一台“能在5分钟的对话中尽可能多地愚弄人类”的机器。

经济学有一个所谓的古德哈特定律:一旦一个指标成为政策制定的基础,它就不再有效。政策制定者将牺牲其他方面来加强这一指标,使其不再具有显示整体情况的功能。类似的推理也适用于其他领域。从某种意义上来说,尤金·古斯曼就是一个例子——它不仅是一个专门设计的聊天机器人,在任何其他领域都缺乏智能,而且还是一个13岁的孩子,他不是以英语为母语,目的是为了误导评委,让他们认为这是因为他年轻,而不是因为当许多问题无法回答或出现错误时,他缺乏人性。

恐怕这不是图灵最初设想的人工智能形式。当然,科幻爱好者害怕(或希望)的不是天网觉醒。

[:也许这种人工智能更接近图灵的初衷...照片来源:xkcd,中文:Ent]

尤金的作者和节目的组织者都不知道这一点。作家弗拉基米尔·维斯洛夫说:“我们希望激发人们对人工智能和聊天机器人的兴趣。”组织者凯文·沃里克(kevin Warwick)说,计算机模拟会带来网络安全问题。“了解这种实时在线交流是如何让人们相信某些事情并影响它们的,这一点非常重要。”没有人真正提到图灵测试的原意——判断计算机是否在思考;因为这不是最初的图灵测试。

有人认为整个人工智能领域已经偏离了它的初衷,比如侯士达。其他人认为图灵测试是无聊和过时的,与人工智能无关。有些人认为目前的人工智能思维没有问题,随着时间的推移,他们可以做出有用的人工智能。其他人认为强大的人工智能根本不可能。作为一个旁观者,我当然无法判断哪些观点是正确的,但就我个人而言,我真的希望有一个程序能够通过图灵测试的原始版本——不仅是为了计算机和人工智能的进步,也是为了理解我们自己的大脑。毕竟,有什么更好的方法来理解一台机器是如何工作的,而不是把它拆开再组装起来?

参考资料和延伸阅读作为丹尼尔·丹内的粉丝,我推荐这个主题的“意识的解释”和“达尔文的危险思想”。前者直接讨论人工智能的问题,而后者讨论为什么从进化的角度来看,“人工智能”在人类大脑中的诞生是可以想象的。然而,“直觉泵和其他思考工具”是非常好的,如果你只是想快速了解他的观点。

从物理学角度对人工智能的讨论包括彭罗斯的《皇帝的新大脑》。虽然我不太同意他的观点,但他谈论了许多有趣的事情。