朱扬勇:大数据时代的数据科学家培养实践
■朱
麦肯锡预测,到2018年,仅美国就可能面临19万名具有深入数据分析能力的人才短缺,同时也缺少150万名拥有数据的管理人员和分析师来分析大数据并为企业做出有效决策。在大数据时代,最受欢迎的职业是数据科学家,而不是传统的信息科学家或大数据工程师。为什么?数据科学家的知识结构和培训体系是什么?目前,大致有三种类型的人被称为数据科学家:从事商业数据分析的人、从事科学数据分析的人和研究数据的人。然而,当解决大数据分析问题时,通常是由来自数学和统计学、计算机和商业领域的数据科学家团队来完成的。这表明目前大学里没有一个专业具备数据科学家所需要的知识,这是一个新问题。
数据科学家的知识体系结构主要包括三个方面:
数据科学基础理论:数据科学基础理论和方法。包括数据相似理论、数据度量理论和计算理论、数据科学的基本研究方法、数据分类法和数据百科全书等。科研数据方法研究。探索各科研领域数据方法的共性问题,建立科研数据方法;数据领域的探索。包括数据社区的规模、数据的增长模式、数据的真实性、数据增长对人类社会的影响等,以及数据社区中的数据安全和数据主权。对大数据复杂性的研究包括大数据本身的复杂性、大数据处理过程的复杂性以及处理大数据所涉及的知识系统的复杂性。
数据技术:大数据计算技术。设计适合大数据的计算模型和分布式体系结构;大数据处理技术;数据采集和集成、数据存储和管理、数据访问、数据呈现、数据质量和价值分析、数据安全和隐私、数据可追溯性和其他技术;大数据分析技术。这是大数据的核心技术研究内容,主要包括对以往数据挖掘和机器学习技术的改进以及新技术的研究。数据网络挖掘(社交网络挖掘、异构网络挖掘等)等新技术的研究。)。
领域业务知识:特定的业务领域知识和与数据技术的有效结合。根据现场创新数据分析方法,提高应用技能,解决实际应用问题。因此,数据科学家应该是具有多种能力的跨境人才,数据科学人才培养体系应该是多层次、多类型的。
自2010年以来,各国大学开始培养数据科学人才。哥伦比亚大学从2011年开始开设“数据科学导论”课程,2014年获得硕士学位,2015年获得博士学位。复旦大学于2010年开始招收数据科学博士研究生,并于2013年开始开设“数据科学”研究生课程。2015年,复旦大学正式开始招收数据科学研究生和本科中等专业学位。2015年10月,复旦大学大数据研究所和大数据研究所正式成立。清华大学在2014年成立了数据科学研究所,并启动了大数据硕士项目。
虽然我国大数据人才的培养已经起步,但值得注意的是,目前培养数据科学家的基础条件还很欠缺,应重视培养数据科学人才的基础条件建设,主要包括:计算条件——培养数据科学人才所需的计算能力建设,包括软件和硬件环境;数据条件——数据是一种资源,是培养数据科学人才的核心。有必要建立一个丰富的数据资源环境。教师资格——这是目前相当缺乏的数据科学人才培养资源,也是影响未来数据科学人才培养效果的关键。
复旦大学数据科学家培养体系建设取得初步成效,包括:系统化培养体系——包括青年数据科学家交流计划、数据科学家博士后计划、数据科学家研究生计划、本科数据科学家第二大计划、大数据方向软件工程硕士培养计划、数据科学家培养计划、数据科学第一课程计划,涵盖数据科学家培养的各个方面,是目前世界上最系统化的数据科学家培养计划。
多学科课程和教学人员——利用实验室的多学科团队,组织编写培训数据科学家的课件,涵盖数学、计算机、金融、医疗、生物、管理、经济、新闻等多学科领域。,围绕数据科学家所需的数学基础、计算机技能、领域知识和实践经验开设课程并指派教师,使学生深入了解数据科学的基本原理、方法、技术和领域应用。
丰富的基础设施——已建成166TB的各种数据资源,涵盖常用科研实验数据集、世界主要语言语料库、交通运输、医疗、生物、证券期货、社交网络和舆情、互联网营销、公共设施安全、天文学、遥感等应用领域的数据资源,以及相应的计算资源和网络资源。
(作者是复旦大学计算机科学与技术学院教授,上海数据科学重点实验室主任)
《中国科学日报》(专题,第8版,2015年10月8日)