范剑青:数据科学的学科建设、发展和展望
■范建清
随着技术和信息的革命,大数据应运而生。它在科技发展、社会经济、管理和决策中发挥着巨大的作用。诸如“大数据概念”、“大数据应用”和“大数据时代”等词汇已经在互联网、报纸和杂志、专家访谈和*官方文件中得到广泛报道和深入讨论。“用数据说话,用数据做决策,用数据管理,用数据创新”的理念正逐渐流行起来。大数据具有广阔的发展前景。它是新的经济资源、新的发展引擎、新的信息宝库、新的科学研究基础和新的决策基因。2012年世界经济论坛的“大数据影响”报告甚至称其为一种新型的经济财产,如黄金和货币。它对人类生活、科技研究、产品开发、*决策、企业管理等方面都有着深远的影响。
我们在数据的海洋和云中。无数的数字探测器安装在工业设备、汽车、电子仪器和容器中。这些数字探测器可以实时测量和传输各种数据信息。数以千万计的摄像头、数以亿计的智能手机、数十亿计的网络搜索和社交网络上的对话会产生大量数据,包括公共安全、公共健康、消费趋势、商业活动、经济趋势等信息。从天文学到地理学,从物理学到化学,无数的科学实验和观察产生了大量的科学数据。海量数据的收集促进了大数据时代的到来。它给数据访问、交换和分析带来了许多新的挑战。它彻底改变了计算机科学、统计学和计算数学的许多方面:从硬件到软件,从存储到超级计算,从数据库到数据安全,从网络传输到并行计算,从数据分析到统计建模,从科学计算到优化方法等等。
大数据的发展之一是解决上述软件和硬件瓶颈的挑战。许多传统方法不再适用于多结构和大容量的大数据。现有的分析方法不仅不能给出有效的答案,而且可能无法分析,甚至给出错误的结论。大容量、多样性、高维性、测量误差、虚假相关性、内生性等大数据特征要求新的分析概念和统计思想,从而对计算技术和硬件提出了新的要求,推动了相关学科的发展。幸运的是,计算技术和硬件的发展以及高速计算算法的出现使得处理大容量、多结构的大数据变得可行,使我们能够用现实的复杂模型解决一些棘手的实际问题,从而促进了统计学和相关学科的发展。然而,现有的计算机技术和优化算法对于许多大规模数据集和统计分析仍然无能为力。如何合理利用这些数据,并根据大数据的特点将它们处理成有用的信息,也是大数据未来的发展方向。
大数据的出现带来了另一场由医疗保健、科学发现、技术创新、企业管理、*决策等领域的信息海啸推动的工业革命。与此同时,它也改变了人们工作、生活和各方面交流的方式。各行各业技术创新产生的大量数据增加了对海量数据处理和分析的强烈需求,从而催生了一门新的、有吸引力的学科和职业:数据科学。其中,计算机科学、统计学和应用知识被称为数据科学的三大支柱。《哈佛商业评论》将数据科学家评为21世纪最具吸引力的职业。
如何充分利用大数据,如何培养大数据分析人才,是世界各国普遍关注的问题。我们认为大数据科学是大数据系统和计算以及大数据统计和分析的有机结合。通过大数据实验室和其他学科的交叉,学科和大数据科学同时发展,促进新技术和新产品的开发,服务社会。我们的课程设计应该围绕这一理念。课程设计应有效整合计算机科学、统计学和计算数学,并与其他学科知识相结合。这不是现有课程重组的新方案,而是为数据科学和精心挑选的材料而重新设计的新课程。应根据大数据的特点开展多种基础教育。它应该比统计学更了解计算机技术,比计算科学更了解统计学和数学。
近几年来,国内外一些高校相继成立了与大数据建设相关的研究机构和学科,并开始授予数据科学学士和硕士学位以及数据分析师认证证书。这些课程或多或少地应用了大数据的概念,但它们处于一种相对分散的状态,即在现有课程的基础上,根据大数据应用这一学科的特点进行教学还没有提升到大数据作为一门学科的基础和方法研究的水平,更不用说将计算机科学、统计学和计算数学有机结合起来的综合研究、应用和产品开发了。
复旦大学大数据研究所和大数据研究所的建立正是基于这样的社会和学科需求。大数据研究所和大数据研究所的主要目的是汇集国内外计算机科学、数学、统计和运筹学的专家和学者,共同开展大数据的教学和研究,并将研究成果转化为产业。在我院筹建过程中,得到了复旦大学、上海市*和上海虹口区*的积极支持和大力参与。这些支持是学科建设和人才培养的最佳保障。我相信大数据科学的学科建设一定会健康发展,不断为社会提供大数据分析所需的各类人才和各类技术产品,推动相关学科的发展。
(作者是复旦大学大数据研究所(即将成立)的院长,也是普林斯顿大学运营与金融工程系的前院长)
《中国科学日报》(专题,第8版,2015年10月8日)