欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 自然科普

行政管理数据分析面临隐私保护难题

科普小知识2021-09-05 16:01:36
...

公众信任非常脆弱:很难建立,但很容易被摧毁。

资料来源:巴塞洛缪·库克/树干档案馆

2011年,六位美国经济学家破解了教育政策的一个核心问题:从长远来看,优秀的教学对孩子有多大帮助?

他们首先追踪了田纳西州11500多名学龄儿童的记录。这些孩子是20世纪80年代实验的一部分,在他们5到8岁的时候,被随机分配到教学质量优秀和一般的老师那里。研究人员随后从本世纪前10年的联邦纳税申报单中估算了儿童的成人收入。分析发现,良好的早期教育的好处将持续几十年:在童年时期,每一年良好的教学,平均年收入增加约3.5%。其他数据显示,在大学出勤率、退休储蓄、结婚率和自有住房方面,同样的人也比他们的同龄人要好。

这些经济学家的工作在教育政策界赢得了广泛的赞誉。巴拉克·奥巴马总统在他2012年的国情咨文中呼吁加大对教师培训的投资。

然而,对许多社会科学家来说,最令人印象深刻的是,这些作者可以分析联邦纳税申报单,这些申报单是受到严格保护的数据集,当时只有符合严格限制的研究人员才能访问。这使得这项研究成为“行政数据”的挑战和潜在力量的象征。行政数据是在提供日常服务过程中收集的信息,包括纳税申报表、福利记录、医生和医院就诊记录以及犯罪记录。

布朗大学的经济学家约翰·弗里德曼(John Friedman)是上述教育研究的主要领导者之一,他表示,这将行政数据集置于社会科学的前沿。“它们不仅能让研究人员用新方法解决旧问题,还能识别出以前完全不可能解决的问题。”

挑战和可能性

在过去的几年里,行政数据被用来研究一系列的问题,从疫苗副作用到邻居对成年人赚钱能力和成功的持久影响。支持者认为,这些丰富的信息来源可以大大提高*衡量社会事业的效率,例如提供补贴帮助家庭迁移到资源更丰富的社区。

然而,也有人担心仓促使用这些数据会对公民的隐私构成新的威胁。“我们习惯性想到的保护类型一直基于匿名和知情同意这两大支柱。但在这个新世界,两者都站不住脚。”纽约大学的经济学家朱莉娅·莱恩说。例如,研究人员在2013年发现,只有通过将他们的数据与公开的系谱信息进行比较,他们才能发现基因研究中应该匿名的参与者的身份。

许多人正试图找到不妨碍研究的方法来解决这些担忧。建议的对策包括制定政策和措施,如国际数据隐私行为准则和技术方法,允许在保护隐私的同时使用数据。莱恩认为,关键是,尽管保护隐私有时会给研究人员带来麻烦,但保持公众信任并使研究成为可能是必要的。

"获取数据的困难是特征,而不是缺陷."她说获得数据应该很困难,但让这种方法成为可能也很重要。

隐私问题

引发这些担忧的是公众对互联网隐私整体状况日益增长的不安。有大量被称为数据代理的私营公司。他们收集和销售关于在线搜索、在线购物和其他数据流的信息,这些信息可以被整合以得出令人惊讶的结论。在一个著名的案例中,美国零售商塔吉特(Target)根据一个小女孩在商店里买的东西推断出她怀孕了,并开始邮寄婴儿用品优惠券。只有当优惠券到达女孩家时,她父亲才注意到她即将生下的孙子。

然而,许多研究者认为这些数据应该有合法的科学用途。人口普查局研究和方法部门的助理主任Ron Jarmin说,人口普查局正试图利用信用卡公司的数据来监测经济活动。由美国国家科学基金会资助的研究人员正在研究如何使用公共推特帖子来跟踪失业等社会现象的趋势。

然而,莱恩说,并不是每个人都能划分商业和学术领域。"人们把对大数据被用于私人目的赚钱的担忧与研究混为一谈."例如,2014年3月,欧洲议会提议在没有具体知情同意的情况下限制对私人健康数据的研究使用,以便通过新的数据保护法规显著增强消费者隐私。这严重限制了研究人员获取这些数据。该提议可能会在诸如总部设在英国伦敦的生物医学研究慈善机构威康基金会(Wellcome Foundation)等机构的反对下被放弃。然而,在2016年该法律的最终草案提交审批之前,它的命运不会变得明朗。

解决隐私问题的一个办法是妥善保存数据,并严格限制谁可以访问。例如,在美国科学研究数据中心,研究人员不允许将智能手机或闪存驱动器带入他们使用的计算机终端的房间。计算机本身不包含数据,但远程连接到安全服务器。

技术答案

计算机专家和密码学家正在试验技术解决方案。一种被称为差异隐私的方法会给数据集增加少量的变形,从而使数据查询给出近似准确的结果,而不暴露参与者的身份。然而,研究人员仍在学习如何信任合成数据,因此关于这一主题的已发表论文仍无法证明这种方法。

无论如何,尽管合成数据可以解决隐私问题,但仍有一些研究应用不能容忍数据中的任何噪声。一个很好的例子是哈佛大学经济学家哈吉·柴提进行的研究,旨在找出邻居对收入潜力的影响。切蒂需要跟踪特定的个人,以证明儿童早期居住的地方与他们比父母挣钱多或少的能力有关。在随后的研究中,切蒂和他的同事们发现,从资源贫乏的社区搬到资源丰富的社区的孩子长大后可以增加他们的收入,从而证实了这种因果关系。

安全多方计算是一种技术,它使多个数据持有者能够分析整个数据集的一部分,试图解决隐私问题,而不会相互泄露底层数据。仅共享分析结果。

仍有一些问题需要技术解决,特别是*机构面临的问题。例如,美国人口普查局希望将公司成立和活动的内部数据与专利的公共数据相结合,以便分析推动公司创新的因素。然而,通过将分析中包含的公司信息与公共专利数据库中的信息进行匹配,可以相对容易地发现公司的身份。贾明的团队还没有找到充分保护隐私的方法。

与此同时,威康基金会政策主管尼古拉·佩林(Nicola Perrin)表示,隐私保护的副作用是现有研究项目的巨大延迟,包括临床试验和健康评估、审计和服务研究。负责研究糖尿病和心脏病如何影响不同种族群体的大型队列研究——SABRE的研究人员自2014年3月以来一直没有收到患者信息的更新。因此,他们冒着向亲属可能已经死亡的家庭发送信息请求的风险。"这里的教训是不要低估公众的担忧。"佩林说,“公众信任非常脆弱——很难建立,但很容易摧毁。”(宗华)

《中国科学报》(国际版,第3版,2015年10月8日)

阅读更多

《自然》杂志的相关报道