打在网上的每个字,都在泄露你的身份
他是一个拥有超过10亿资产的天才,不愿意面对镜头:关于比特币创始人中本聪,我们知道一些事情,但我们仍然不知道中本聪是男是女,还是人类。中本聪在金融界制造了一场震荡,但他自2011年以来就没有出现过。许多人想找到这个名字背后的真正的人,但是没有人有确切的证据。最近,有人说这位世界上最神秘的大亨终于因为他的写作风格而被公之于众。
2014年,在司法语言学家杰克·格里夫的领导下,阿斯顿大学的一群学生分析了中本聪2008年发表的一篇关于比特币的学术论文。他们统计了“静止”和“仅”等小词的出现频率,并分析了文本中的标点符号模式,如“但是”和“之前的逗号”,从而找到揭示作者身份的线索。他们指出,这篇论文的写作风格符合尼克·绍博的风格,他是密码货币领域的博学大师。
尼克·索伯刚刚开发了一种通过无线电传输比特币的方法。资料来源:bitconnect.co
尼克·索伯刚刚开发了一种通过无线电传输比特币的方法。资料来源:bitconnect.co
今年早些时候,美国企业家兼政治评论员亚历山大·缪斯(Alexander Muse)也声称,美国国家安全局使用了类似的技术来破解中本聪的身份,但没有透露他们的分析是否也指向了绍博。
对中本聪的追踪提出了几个有趣的问题,即每次我们写下这段文字时,我们是如何揭示我们的身份的。从一个作家的写作风格,我们能了解他多少?随着数字通信的普及,我们的推特、电子邮件和短信中隐含着多少可能背叛我们的线索?新兴软件已经能够分析大量数据来发现模式。我们能在他们面前保持隐形吗?
每次我们谈话或写作时,我们都会泄露很多关于我们的身份、职业和家乡的信息。几千年来,侦探们一直用文字来解决犯罪问题,但最近几十年来,计算机承担了一些沉重的责任,负责分析我们产生的大量数字信息的模式。
这种定量的风格化分析是计算机专业本科课程中常见的内容,也是高校和出版社每天使用的剽窃监控软件的核心功能。此外,刑事调查专家还使用罪犯在互联网上留下的文字来确认他们的身份。
一些软件可以分析文本作者。资料来源:temple.edu
这种分析最常见的用途是确定到底是谁写了一篇文章,并总结一个未知作者的写作特点:他的年龄、性别、教育水平和母语。分析的第一步通常是列出可能的作者及其文本样本,然后由专家或软件从中提取重要特征。然后将待确认的文本与这些段落进行比较。任何匹配的作者都会用概率来表示,而不是绝对的“是”或“否”。最后,这些结果应与本案所涉及的其他证据一起审查,如提交人当时是否有不在场证明。"如果所有的证据指向同一个方向,你可以相当肯定地说作者是谁。"伊利诺伊理工学院的计算语言学家Shlomo Argamon说。
路边的草所揭示的所谓“重要的语言特征”在不同的情况下可能是不同的。这方面有一个著名的例子:一个绑匪写了一封勒索信,要求人质的家人把赎金放在“魔鬼地带”。警方找到华盛顿特区乔治敦大学的语言学家罗杰·舒伊帮忙。树碰巧知道“魔鬼地带”是指人行道和车道之间的草地。这是极其罕见的,如此罕见,只有俄亥俄州阿克伦的居民才能使用它。他问警察是否有来自阿克伦的嫌疑人。他们惊讶得连嘴都闭不上了。他们确实有这样的嫌疑人,他后来供认了。
那封著名的“魔鬼地带”勒索信包含了许多揭露作者身份的线索。勒索信的主旨是:你还想见到你的宝贝女儿吗?然后把10,000美元现金放在尿布袋里,放在第18街和卡尔森街拐角处草地上的绿色垃圾箱里。别带其他人来。不要报警!!想要一个人来!我会留意你的。如果你带别人来,交易就结束了,你女儿也死了!!!资料来源:新闻科学家
如果你不想被自己的话所背叛,仅仅避免方言或其他特殊词汇是不够的。因为揭示你身份的线索通常是容易被忽略的文本特征,而这些特征我们不会有意控制,比如哪些单词是大写的,标点符号后还剩多少空格,是否在段落前缩进,等等。“像‘魔鬼地带’这样的词很少见。”阿伽门姆说。“那真是运气。”
比文本特征揭示更多信息的是所谓“虚词”的相对频率,虚词是用来把句子粘在一起的。阿伽门姆指出:“虚词是介词、连词和人称代词。这些词本身没有意义,只起语法作用。”这些词对分析贡献如此之大(至少在英语中)的原因是它们的数量非常大:加在一起,它们超过了我们所写单词的一半。
奥斯汀德克萨斯大学的詹姆斯·彭尼贝克在他的研究中指出,这些看似毫无意义的语言成分可以显示一个人的性格类型、健康状况,甚至他是否会自杀。
其他人则利用暴露身份这一独特的语言特征来渗透互联网上的犯罪网络。蒂姆·格兰特也来自阿斯顿大学,他训练卧底警察在互联网上伪装成被抓获的恋童癖者来引诱其他罪犯。有时,他们还冒充潜在的受害者来引诱罪犯上钩。格兰特总结了这些罪犯的写作风格,并训练警察纠正他们的模仿技巧。“那些人在互不信任的环境中交流。如果你说错了什么,你会提醒他们。”他说,“如果你在选词或交流中犯了错误,与他们的交流将变得非常困难。”
这些显著的模式,无论是在选词、句子结构还是作者无意中使用虚词的频率上,都表明了语言的高度灵活性。语言学家曾经认为,我们都学习一套标准语法,然后偏离它来表达我们的个性。然而,现在更普遍的观点是,我们从一开始就有一个母语的心理模型。我们习得母语的社会和情感环境是不同的,这使得这种模式与其他模式略有不同,但又有很大的不同。
亚利桑那大学的计算机科学家陈新竹指出,正是这种差异导致了个性化写作。他还首次提出了“书面印刷”的概念。所谓的笔印是语言的指纹。这是我们写作风格的细微差别,包括词汇、句子长度和段落安排的不同。
自从作者的身份被看似毫无意义的语言元素(如所谓的“功能词”)所揭示以来,已经有好几年了。2013年,宾夕法尼亚杜肯大学的帕特里克·朱奥拉以类似的方式指出,罗琳是小说《杜鹃花的呼唤》的作者,将这项技术公之于众。
但是如果作者死了,就更难说服公众了。例如,“圣诞前夜”,一首19世纪的诗,一直被认为是克莱门特·克拉克·摩尔写的。然而,到2016年,新西兰文学学者麦克唐纳·杰克逊(Macdonald Jackson)发表了一份详细的分析报告,通过使用“那个”和“那个”等词以及几对音素,证实了这首诗的作者是亨利·利文斯顿。
这个结论不是每个人都接受的。梅尔维尔作品专家斯科特·诺斯沃西嘲笑杰克逊(和他的电脑)对“无意义成分”的分析,称这些成分“无关紧要,它们在文本中的分布可能完全是随机的”
看不见的风格,当有人想收集你的语言指纹时,你如何逃脱?阿伽门姆说,从某种意义上说,这很容易做到。假设有100位作者,每人提交一篇文章,而你作为其中一员,不想让别人知道你写了哪一篇文章,那么“你所要做的就是让你自己的文章看起来像那99篇文章中的一篇。”
这种方法有时效果很好。萨迪亚·阿弗隆兹现在为加州大学伯克利分校的国际计算科学研究所工作。在宾夕法尼亚德雷克塞尔大学工作期间,她和她的同事进行了一项研究,要求参与者写下他们那天早上的经历,并模仿美国作家科马克·麦卡锡的写作。结果,这些词愚弄了一个学习麦卡锡作品的定量文体分析程序:它认为这些是麦卡锡的原创作品。
不幸的是,一般人在这一点上总是显得业余,很少有人能通过适当的修饰来伪装自己。例如,在“魔鬼脱衣”案件中,勒索者故意拼错一些单词(拼写“cop”为“kop”和“can”为“kan”),以假装是一个低教育水平的人。然而,这种写作策略并没有成功,因为他把一些难的单词拼对了。这个矛盾戳穿了他的伪装。
阿伽门姆指出:“当一个人想要掩盖自己的写作风格,模仿别人的笔法时,他往往会无意中透露出更多的身份特征。蒂姆·格兰特回忆起他在2003年和同事杰克·格里夫一起调查杰米·星巴克一案的经历。在过去的三年里,星巴克周游世界,通过他妻子黛比的邮箱给他人发送电子邮件。事实上,他在31个月前杀死了黛比,就在他们结婚一周后。直到黛比的亲戚开始怀疑,他才开始模仿她的风格。”黛比非常喜欢分号,她使用分号的方式非常奇怪。”格兰特说,“吉米突然开始大量使用分号,但方式与他妻子不同。“他回到英国后最终被捕,并被判处终身监禁。
那么,我们能不能用计算机本身来修改文本和欺骗定量文体分析程序?是的,你所要做的就是上传你自己的文本,并根据程序的指令修改它。这是一个正在蓬勃发展的领域,被称为“反向经济计量文体学”。阿方索是推动这一领域的研究人员之一。她说,因为这个项目的工作,她总是被要求揭露中本聪的真实面目。最后,她在自己的网站上发布了一条通知,表明她拒绝了。“我研究计量经济学文体学的目的是指出它对人们的危害,检查机器学习的弱点,并开发工具来提高匿名性。”她这样写。
在网上保持匿名并不容易。资料来源:anonews.co
保护匿名可能符合合法的职业利益。例如,学者们希望在基金和论文的同行评议中保持匿名。匿名对于告密者甚至程序员来说也是危险的。
你可能认为计算机源代码纯粹是功能性的,但事实上它们也能揭示许多关于编码它的人或团体的信息。就像作者有一个“钢笔打印”,编码器也有一个独特的“代码打印”,因为有许多方法来写同一个程序。
"程序员将根据他们的舒适度和不同的编程技术选择不同的编程方法."加州大学伯克利分校国际计算科学中心的萨迪亚·阿弗伦茨说。
代码模式可能包含看似琐碎的选择,例如用空格键而不是tab键缩进代码,所有这些都会留下独特的数字痕迹。即使是给计算机的低级指令也会因作者而异。
2015年,谷歌举行了年度谷歌密码大会。宾夕法尼亚德雷克塞尔大学的一组计算机科学家也用软件分析了1600名参赛者的编程风格。该软件检查了代码中关键字和语法的特征,最终成功匹配了近93%的代码和作者。
通过分析程序员在一段时间内的工作,团队还发现程序员的编程风格将在几年内保持不变。代码模式的这种稳定性有时具有很大的参考价值,因为程序员的已知代码样本可能是几年前获得的。
然而,为什么程序员应该保持匿名?我们可能会立即想到恶意软件作者逃避法律制裁的例子,但事实上,有一些优秀的程序员想要隐藏他们的身份,其理由是完全正当的。例如,如果一些地区认为开源软件是非法的,那么这些软件的开发者可能不想透露他们的身份。
因此,一些人呼吁开发匿名文本的软件是很自然的。
问题是,这种软件真的有效吗?
直到今天,唯一向公众发布的匿名工具是“匿名鼠标”,它是由德雷克塞尔大学隐私、安全和自动化实验室开发的。该工具于2012年发布,旨在将定量文体分析的准确性降低到随机猜测的水平。为了实现这个目标,Annonymouth使用了一个名为“JStylo”的风格分析软件。它可以通过收集几篇文章的样本,评估句子长度、单词选择和某些字母的使用频率的特征来描绘作者的肖像。然后,他指示作者修改文本,并告诉他如何使作品与他的肖像不一致,例如将时态从过去时改为现在时,或者少用人称代词等。
开发人员声称,通过收集6500个单词的样本,JStylo可以将一段文本与它所研究的许多作者进行比较和识别,结果的准确率可以达到80%到85%。今年早些时候,另一个开发者宣布了一个名为“艾玛身份”的人工智能项目,该项目声称能够用8000个单词来创建一个作者的肖像,与匿名文本相比,准确率达到85%。
这样的成功率远非完美,但比随机猜测要高得多。成功率高是因为分析是在相似的实验室环境中进行的。该软件对如何找到定量的文体特征有明确的指导。然而,现实世界是不同的。用来训练JStylo或Emma的样本可能只是一篇短文或一封仓促输入的电子邮件,而要筛选的匿名文本可能是一封精心撰写的信或一篇科学论文。
在未来,我们可能还会看到“反向作者分析”技术,一方面是识别作者的技术,另一方面是隐藏作者的技术,双方都在加速军备竞赛。北卡罗莱纳州农业技术大学正在开发一个名为AuthorWeb的工具,可以用来帮助作者避免定量的文体分析。它将为作者设定风格目标,并通过可视仪表板提供实时反馈,告诉他们书写的文字与某些特征的匹配程度。这将有助于作家们轻松而一致地长期隐藏他们的写作风格。
同时,阿伽门姆指出避免定量文体分析的最好方法仍然是联合写作:一个人写文章,另一个人编辑。你不必依靠机器来修改写作风格或自己动手。只要你找个人合作,两个或更多作者的语言指纹自然会相互抵消。这也可能是让中本聪长期躲藏的策略:一些人已经怀疑躲在比特币背后的不是一个人,而是一个团体。因为语言指纹相互覆盖,他们可能仍然能够安全地潜伏在黑暗中,并继续监视追捕者。