数据科学家迎来春天
伦敦的艾伦·图灵研究所是数据科学不断发展的领域中一个跨学科的港湾。照片来源:托比·基恩/艾伦·图灵研究所
像这个数据驱动时代的许多其他科学家一样,卡提克·拉姆在2009年彻底改变了自己。当他在美国怀俄明州黄石国家公园开始他关于气候变化如何影响麋鹿的博士后研究时,他认为自己是一名生态学家。但是解释卫星数据,分析动物项圈和其他工作,让他开始扩展他的思维定势。
为了理解不断变化的生态系统,他需要不断完善自己的编程,并理解如何管理类似山脉的信息。这些技能改变了他定位自己和职业的方式。"我越来越少用“生态学家”这个词。"他说,“现在,我主要称自己为数据科学家。”
年轻的主题
数据科学在2009年还是一门年轻的学科,但它已经迅速成熟,现在已经与许多学科交叉。尽管数据科学的定义正在改变,但它通常涉及使用计算工具来管理和解释大型数据集。
在加州大学伯克利分校的伯克利数据科学研究所工作的拉姆,现在正与同样涉足数据领域的前神经科学家、社会学家和生物学家一起工作。"学院里的每个人都和我一样。"他说,“我们有计算技能和统计技能,可以在特定领域使用。”
对数据科学家的需求已经从学术界扩展到工业、医疗保健、*和所有产生复杂信息的机构。微软预测,到2020年,美国数据科学和分析领域可能会有超过270万个工作岗位,比2015年增长15%。根据欧洲数据科学研究所的统计数据,欧洲对相关人才的需求是相似的。欧洲数据科学研究所是一个培训和教育机构,在欧洲寻找识别和收集数据科学技能的工作。自2015年以来,学术界已经确认了300多万份类似的招聘广告,包括今年三个月内发布的29万份招聘广告。
对于那些寻求数据科学家角色的人来说,挑战不是找工作,而是找到最适合他们能力和兴趣的职位。艾米莉亚·泰勒(Amelia Taylor)说,确定“最正确的工作是非常困难的”,她曾是位于克泉的科罗拉多大学的终身数学家,也是位于加利福尼亚埃默里的齐默根公司的数据科学家(该公司研究基因编辑微生物的新用途),“数据科学在不同的地方看起来非常不同。有这么多公司,很难知道该看哪家。”
当其他领域的博士学位持有者没有多少选择时,在这个领域有“太多选择”是一个好现象。拥有正确技能并知道自己机会所在的科学家将会看到一个有回报的、数据驱动的未来。
很多角色
数据科学已经导致许多领域的“水涨船高”。除了“数据科学家”搜索的增加,“数据工程师”和“数据分析师”也是求职平台上的热门词汇。这些角色之间的差异是微妙但重要的。"数据工程师的核心技能是构建一个不会失败的健壮系统."英国伦敦的咨询和数据科学奖金计划ASI数据科学公司的首席执行官马克·沃纳解释道。
他说,数据科学家和分析师之间的一个重要区别是,科学家将跟踪他们所引导的数据,即“数据第一”的方法。分析师通常使用数据来验证既定的假设。
在英国伦敦的艾伦·图灵研究所,米哈埃拉·范德沙尔公开了这些数据。她已经开发出计算机公式,帮助患者进行个性化治疗、疾病诊断和风险预测。"我认为这些技术可以改变医学,拯救生命,促进科学突破."她说。
ATI由五所英国大学和国家工程和物理科学委员会于2015年成立,旨在促进行业和*之间的合作。范德萨说,该组织体现了数据科学的跨学科精神。她补充道,数据科学领域中一些最大、最有趣的问题来自意想不到的地方。
“目前,我在at I中参与最多的项目之一是开发更好的方法来理解和治疗囊性纤维化患者。”她说,“这不是来自工业或*,而是通过与英国囊性纤维化基金会的合作。”
跨学科的联系也形成了摩尔·斯隆数据科学环境基金会——这一倡议已经在加州大学伯克利分校、西雅图华盛顿大学和纽约大学建立了几个数据科学中心。每个中心汇集了来自不同领域的数据科学家。“这个想法是通过在提倡数据科学方法的人(数学、统计和计算科学领域的研究人员)和在社会、物理和生命科学领域应用这些方法的人之间建立桥梁来加速发现。”
并非所有的博士项目都在为数据科学的现实世界培养研究人员,因此短期培训课程越来越受欢迎。泰勒之所以能够进入数据科学的大门,是因为她获得了加州帕洛阿尔托一个名为“洞察数据科学”的组织为期7周的奖学金,该组织将数据科学家与美国公司联系在一起。其成员已经在亚马逊、脸书、摩根大通和其他各种大大小小的科技公司获得了职位。
泰勒说,“洞察”奖学金项目在教授她目前工作所需的技能方面发挥了非常有价值的作用。除了掌握熟练的技能,培训还教会她超越数据分析的框架来完成产品的实际应用。她观察到,拥有博士学位的人在进入工业工作时经常会遇到过渡困难,除非他们掌握了第一手工业经验。"我在公司起步很快,因为我考虑了产品."她说。
医疗援助
数据科学已经到达医疗和医疗中心,为许多研究科学家提供了另一种使用他们技能的方式。作为纽约大学和附近的罗切斯特大学神经科学培训的一部分,《洞察》的前参与者阿纳苏亚·达斯(Anasuya Das)学习了C++编码语言,创建了帮助人们从中风中恢复的软件,以便患者可以使用家用电脑练习视觉学习。达斯还修了两三门计算神经科学课程,这激发了她对全职数据科学的兴趣。现在,她在纽约市纪念斯隆·凯特林癌症中心工作。
Das正在使用一个系统将患者与临床试验相匹配。“我的日常工作非常多变,从做纯软件工程到与医生见面,我们都在制造产品。”她说。
Lazowska预测,数据科学的兴起将最终改变“不出版就淘汰”的科学体系。他相信有一天,编码和数据集将成为职业发展的先决条件,就像现在的出版物一样。他说,现在他和他的同事鼓励研究人员在简历中列出数据科学的相关成就。他们还建议晋升和任期委员会将这些技能视为有效的指标。
拉姆还在简历中列出了一系列数据科学项目。目前,他正在参与一项长期工作,测量人类活动对塔希提岛生态的影响。这个问题比他在黄石公园时复杂得多,但是工具也变得更先进了。现在,他不必几个月都在数据集上努力工作,但他可以在几个小时内得到结果,这并不意味着数据科学变得容易了。
“对许多人来说,一个巨大的挑战是要有能力学习这些新工具以及如何正确应用它们。”拉姆说,“随着时间的推移,几乎所有首席研究员的团队都需要一个具备这些特殊数据技能的人。”数据科学的定义和期望可能会随着时间而改变,但是这个领域将会稳定下来。(晋南编)
上一篇:美宇航局迎来新局长
下一篇:美科学项目迎来预算战争