欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

谁来拯救不靠谱的民意测验

科普小知识2021-10-19 07:17:34
...

如果你想预测人们做出的决定,你别无选择,只能直接问他们。

选举前夕的民意调查和分析未能清除特朗普的隐藏选民。资料来源:法新社

2016年11月8日,埃尔南·马科斯(Hernan Makse)和几个朋友在纽约上西区的一间公寓里,一边烹饪鲈鱼,一边啜饮夏布利葡萄酒,一边看着总统大选慢慢展开。他们在微软的全国广播公司和福克斯新闻之间切换频道,同时用笔记本电脑关注纽约时报网站。该网站正在实时更新“总统选举预测”。当时还为时过早,几个关键州的结果尚未公布。希拉里·克林顿的支持率飙升至80%以上,而唐纳德·特朗普的支持率跌至20%以下,这是一种滚动形式,标志着“总统获胜的机会”,反映了民意调查数据。

纽约城市大学的统计物理学家马科斯对选举结果下了科学赌注。前一天,他的实验室团队在在线预印文章库arXiv上发表了一篇研究论文。他们急切地修改了它,并将出版时间定在选举日的下午4点。就像纽约时报网站上的表格一样,他们预测了谁将成为总统。然而,该网站使用的是州民调数据,而马科斯的预测都是基于选举前一个月的推特数据。

如果Makse的团队能够可靠地预测选举结果,那么他们就有资本吹牛。民意调查是通过电话或挨家挨户的访问来进行的,这是劳动密集型和昂贵的:他们正在推动一个180亿美元的产业。此外,这种方法也有其自身的问题。不仅回复率下降到了一位数,让民意调查者只能依赖罕见且有偏见的样本,而且去年对1000多名民意调查者的分析发现了普遍的数据欺诈。相比之下,马科斯的团队几个月零几分钟都在直接追踪数百万人的政治观点,而且他们是免费获得这些信息的。

Twitter并不是科学家收集从选举到街头游行的数据并将其组合成预测模型的唯一在线数据流。最大的科技公司,如脸谱网和谷歌,生成数据供研究人员免费使用,尽管使用这些数据有些不方便。因此,Makse和许多其他社会学家想知道:在线数据能被用来作为一种预测工具来加强民意调查,甚至取代它吗?

选举之夜的结果揭示了答案:为时过早。随着夜幕的降临,马科斯基于推特的预测继续与高价的民调数据保持一致,预测克林顿将赢得55.5%的选票。但是两种预测都是错误的。晚餐结束前,看着《纽约时报》网站数据驱动博客的“最终结果”的结论,Makse终于回到了现实。“看到他们在晚上8点把对特朗普的支持率从20%提高到95%,真有趣。”他说。

民意调查仍然占主导地位。

预测人们会做什么以及为什么做是社会科学的核心。考虑到很难预测一个人的行为,把它扩展到预测一个社区或社会的行为似乎是没有希望的。"但在某种程度上,这是一个更容易的问题."英国牛津大学互联网研究所的计算社会学家塔哈·亚塞里说。他在物理学领域提供了一个类比:尽管单个粒子的运动看起来是随机的,“由数百万个粒子组成的气体的行为是可预测的。”

认为社会可以被视为一个物理问题的观点有其深刻的根源。20世纪50年代,美国科幻作家艾萨克·阿西莫夫提出了一个科学分支——心理史学。他想象有了强大的计算机和安全的数据集,研究人员不仅能预测选举,还能预测帝国的兴衰。

随着时间的推移,阿西莫夫设想的计算机和数据集变成了现实。但是现在,尽管民意测验的成本高、效率低,这种方法仍然是预测群体行为的选择性工具,比如选举。一项分析世界各地选举竞争的研究表明,尽管去年11月出现了意想不到的结果,民意调查仍然是可靠的。

德克萨斯休斯顿大学的社会学家瑞恩·肯尼迪和他的同事们集中研究了以往总统选举的数据集。他们将研究局限于选民直接选择国家*的选举,而不是像英国那样通过基于政党的议会系统,从而回避了比较不同*系统的复杂性。这个过滤器留下了大量的数据:最终的数据集来自二战以来86个不同国家的500多次选举。

为了预测获胜者,肯尼迪、波士顿西北大学的社会学家大卫·拉泽和他的博士生斯特凡·沃西克使用了投票者的民调数据和其他可能影响选举的数据(包括一个国家的经济发展、**程度等)。由第三方评估)来系统地模拟每次选举。

他们将模型数据更新至2007年,然后用过去8年的128个选举数据进行验证。总的来说,他们能在80%~90%的时间里正确预测出获胜者。在所有指标中,民意调查被证明是迄今为止最有力的工具。"我们预测,关于即将到来的选举的定量预测的报告被大大夸大了。"作者调侃道。其他人也同意民意调查到目前为止占主导地位。“如果你想预测人们做出的决定,除了直接问他们别无选择。”哥伦比亚统计学家Andrew Gelman说。

在线预测仍然存在缺陷。

然而,拉泽证实,人们对民意调查的依赖不会持续太久。"标准投票方法正面临危机。"他说。一个原因是人们对民意调查越来越不耐烦了。另一个因素是固定线路电信的衰落。如果你找不到人,你就不能测试他们。那么,来自互联网的长队数据能弥补这个缺陷吗?拉泽说,这有“很大的可能性”,但是在这些方法变得有效之前,还有很多事情要做

挑战之一是很难从人们的互联网习惯(即他们的互联网搜索和社交媒体演讲)中解读他们的动机。如果数百万人在推特上表示支持某个候选人或反对某个对手,它能可靠地推断出他们将如何投票吗?“如果你不知道是什么影响了他们的动机,”亚塞里说,预测人们的行为可能非常棘手。

测试动机的一个很好的实验领域是*,它被许多人用作一站式基本信息浏览地址。为了弄清楚*的流量会揭示出什么样的选举结果,亚塞里和他在牛津大学的同事乔纳森·布莱特(Jonathan Bright)一直在追踪*网站的每日访客数量,这些访客每五年关注一次欧盟议会选举中的政党竞争。因为这些选民说不同的语言,亚塞里和布莱特在网站上收集了14种不同语言的数据。

每个政党的*网站的访问者数量不能可靠地预测谁最终会在2009年和2014年的选举中赢得席位。“没那么容易。”雅斯里说。他的理论是,选民“信息匮乏”,他们寻求最基本的信息来做出决定。然而,事实上,他们发现最活跃的*页面是那些新成立的政党的页面,访问量将在选举前一周达到峰值。

为了验证人工预测行为,亚塞里现在正参与一个欧洲团队,建立一个“社会数据库”,这就像一个基因数据库,可以提供深入的信息,如人口统计数据、健康记录、在线浏览痕迹,甚至一些人的手机数据。起初,该项目将集中在英国、芬兰、匈牙利、西班牙和斯洛文尼亚。"我们需要弄清楚如何匿名这些数据。"雅斯里说。希望通过跟踪相对较少的人的在线行为,研究人员能够推断出一些人访问网站、留言和决定投票的动机。他说,一旦他们解决了匿名问题,团队希望在几年内开始预测选举结果等等。

可靠的预测需要“泄漏检测”

马科斯正试图在推特上改进他的模型。特朗普当选后的第二天,他在实验室会见了他的研究生和博士后学生。气氛有点不好。"他们大多数是外国人。"他说特朗普在竞选中的反移民言论非常令人不快。

他们对他们在推特上的研究进行了“解剖”,以寻找任何他们可能遗漏的线索。尽管推特上的数据比收集民意调查结果容易得多,但它们更难解释,因此产生了民意调查者从来不需要考虑的挑战。

例如,在选举前的四个月里,7300万条关于“克林顿或特朗普”的推特信息中有多少是人们写的?推特平台允许计算机编程的模仿者参与在线讨论。然而,它们还没有被标记出来。当许多观察家看着他们时,他们只是热情的追随者和选民,他们响应一些政治口号,扩大一些观点。运用这些声音就像在观众中安插一些人来嘲笑你的笑话。

推特的未知用户群中也有一定数量的付费黑客。在马科斯的分析中,支持特朗普的最有影响力的推特用户之一是@林达斯勒。根据注册账户信息,他的身份是“博士生琳达·苏勒”。然而,互联网上没有这个人的记录,科学杂志发给这个用户的推特信息也从未得到回复。

马科斯说,如果这些问题能够被追踪,来自社交媒体的信息可能会提高选举预测的准确性。但是我们需要多精确的结果呢?盖尔曼警告说,精神病史也有负面影响。他说,如果人们能够非常准确地预测选举结果,那么选举本身“将变得毫无意义”(晋南编)

中国科学新闻(2017-02-13,第三版国际版)