这篇论文竟与今夏最火的一桩“悬案”有关
今年夏天,网民们谈论了一个“悬案”——上元节那天,在大唐长安城,谁是300桶黄铜矿背后的大老板?
根据马伯勇的小说《长安十二小时》,这部影视剧有一个意想不到的结局——幕后策划者是一个想通过“大案要案”为大唐扭转乾坤的小官吏徐彬。
徐彬彻底暴怒了。有些人说他可以与“大数据”的创始人相提并论。
在真正的大数据专家眼中,这当然是一个笑话。然而,到目前为止,科学家们确实在一步步地尝试和实现徐彬在剧中的抱负。
最近,《物理报告》发表的一篇评论文章《计算社会经济学》正是这样说的。
“大案例写作”远离大数据
静安公司是《长安十二小时》中的虚拟信息中心。它的厢房里有一个巨大的仓库,里面堆满了从长安六个部门到两个城市的文件,可以随时阅读。
徐彬大师创造了一套算法——“大案写作法”,可以根据大唐档案中记载的各种数字,准确推断事实,预测未来。
在他看来,这不仅是一个数字,而且是人民、他们的生计和事业。大唐的平均税收制度,以人数为基础,就是以此为基础的。
徐斌意识到,这些数据可以为国家制定宏观政策提供重要依据。
淘气的网民称“大案写作”是大数据技术的“直通版”。成都电子科技大学大数据研究中心主任周涛认为,“大案例”和大数据之间还有很长的路要走。
“这最多是一个分类和常规的数据搜索,而不是一个数据处理机器。因此,它解决的是如何快速找到有用的相关数据,但无法处理这些数据。”
然而,“大案写作法”仍然受到静安市委书记毕丽的青睐。这位年轻的天才实际上相信“数据就是真理”的真理。
当然,当时这只是一厢情愿的想法。
几千年来,*一直试图通过收集信息来管理其公民。然而,即使在20世纪,传统的获取真实数据的方法仍有许多局限性。
周涛解释说,传统的认识社会和经济发展状况的方法主要依靠大规模的社会和经济普查。然而,人口普查数据的获取既费时又费力,而且往往滞后很长时间。此外,在许多经济不发达的国家和地区,信息系统不够完善,也没有财力支持大规模人口普查。
维克多,被誉为“大数据业务应用的第一人”?迈尔。勋伯格在他的《大数据时代》一书中提到,美国宪法规定每10年进行一次人口普查。1880年的美国人口普查花了八年时间来收集数据。1890年的人口普查预计需要13年来汇编数据。结果,他们获得的许多数据都过时了。
虽然人类发明了随机抽样的方法,但大量的问卷调查数据和自我报告通常只包含少量的样本,具有社会期望偏差。
自1920年以来,经济界就开始了一场关于经济能否被计算和预测的大辩论。一种相反的观点是真实数据的不可用性。此外,人与人之间的效用无法量化或比较。
事实上,在周涛看来,社会科学,包括经济学、社会学、法学、政治学等学科,都面临着相似的问题——研究对象的复杂性和不确定性,这使得这些学科很难从定性研究转向定量研究,因而缺乏预测未来的能力。
“计算社会经济学”的诞生
直到最近几年,大数据和人工智能技术的发展给社会科学,尤其是社会经济研究带来了前所未有的机遇和变化。
成都电子科技大学大数据研究中心的高建博士、基础与前沿研究所的张一成教授和周涛发表的《计算社会经济学》论文解释说,一方面,卫星遥感、手机通信和社交媒体等大规模社会经济数据的可用性有所提高,具有低获取成本、实时更新和高时空分辨率的优势。另一方面,社会经济分析工具和计算方法的改进,如机器学习、网络分析和文本挖掘,有效地提高了感知和预测社会经济的能力。
自2013年以来,一直从事大数据研究的周涛开始思考基于人类活动和关系的大数据应该如何参与社会科学。
多年来,周涛团队收集、总结和分析了社会经济学定量研究中使用的数据、方法和工具,并看到许多不同领域的科学家在感知和推断社会和经济趋势以及洞察和理解社会和经济规律方面进行了一些有趣的尝试。
遥感是利用传感器技术探测地球上的物体而获得的信息。它最初用于地球科学。近年来,来自遥感的高分辨率数据已被用于提供经济活动的信息。例如,通过使用捕捉夜间光线的卫星图像数据,并结合全球人口动态统计分析数据库的人口数据,用统计方法估计各国和各地区的社会经济状况,从而绘制世界贫困地图,提高对全球贫困问题的及时认识。
科学家还通过复杂系统的物理建模来分析产品的出口数据,并将该模型应用于国内生产总值预测。结果表明,该模型的预测精度比国际货币基金组织的预测精度高25%左右,在世界范围内引起轰动。
此外,通过使用诸如电话、社交网络和移动电话记录的移动轨迹等数据,可以建立预测个人收入的模型。科学家们对卢旺达856名手机用户的家庭经济状况进行了详细的调查,然后通过机器学习的方法建立了一个利用手机数据预测家庭经济状况的模型,从而可以从手机数据中高精度地直接估计出卢旺达150多万个家庭的经济状况。
例如,通过分析超过2亿微博用户的注册数据,发现在线社会活动与经济发展密切相关。经济发展高于预期的社会活动和第二产业发达的城市;如果经济发展低于预期的社会活动,第三产业就发达了。
基于企业内部的在线互动平台数据,可以构建员工之间的社交和工作网络,还可以计算员工在网络中的位置。研究发现,处于网络核心的员工将来更有可能获得晋升,而处于网络边缘的员工将来更有可能辞职。因此,可以建立一个模型来更好地预测员工晋升和辞职的可能性。
周涛说,这是一个全新的跨学科研究分支——计算社会经济学的诞生。其研究内容可涵盖三个层面:国家社会经济地位、区域/城市经济结构、个体社会经济属性,以及两个应用:应急和灾害管理、发展和升级战略。
在这篇83页的综述文章中,研究人员从不同的期刊和多学科的会议记录中寻找这个新兴研究领域的结果,并将这些结果收集在一起。他们还根据不同的研究对象和数据集整理出有代表性的结果,从而看到当前计算社会经济学应用的全貌。
数据专家应该渴望社会科学
周涛说,计算社会经济学特别强调三个关键词:“量化”,强调使用数值而不是描述来描述问题和呈现结果。“真实数据”强调理论模型必须服从真实数据,并以解释和预测真实数据的能力作为评价标准。“大规模”强调获取尽可能多的能够直接反映整体的数据样本,即全规模数据。
然而,他也提到,文章中介绍的许多重要方法和结论仍未被社会经济学所接受。事实上,从事计算社会经济学相关工作的研究人员分散在许多学科中,并未被认真视为对传统社会经济学方法论的挑战。
“作为大数据专家,大数据和人工智能带来了巨大的变化。对科学的最大影响不是来自计算机学科本身,而是在很大程度上来自它对社会学、经济学、管理学、心理学等社会科学的影响。”周涛认为,将原本只是半定量或定性分析的学科转变为定量分析将是一个巨大的转变。"因此,数据专家应该有对社会科学的渴望."
当然,本文也指出,作为一个新兴的跨学科研究分支,计算社会经济学的研究仍然面临着一些方法论上的不足。
首先,数据质量,尤其是真实性,不能完全得到保证。尽管来自真实世界的数据是计算社会经济学的优势,但来自社交媒体的数据的真实性仍然经常受到质疑。
其次,研究成果的适用范围和相关性有限。计算社会经济学中使用的数据并未涵盖所有人口。此外,社会和经济问题在很大程度上受到当地因素的影响,如宗教、文化、政治等。一个地区的某些结论可能不适用于其他地区。
为此,研究者提出了未来需要研究和解决的问题的方向。尝试设计具有较强解释和预测能力的新指标;运用数据驱动的方法,重新分析了传统社会经济学理论的正确性和适用性。发现因果关系并形成理论见解;通过控制实验验证了新的理论结果。将理论和实证分析的方法和结果应用于实践。
相关论文信息:https://doi.org/10.1016/j.physrep.2019.05.002
上一篇:日本七大悬案