产学研携手推动智能交互发展
将表格信息转化为机器语言,从周增长量表中预测股票未来走势……10月12日,由大通一技术赞助、南京大学计算机软件新技术国家重点实验室协办的“首届NL2SQL中文挑战赛”决赛答辩及颁奖仪式在南京大学举行。各队提交的结果赢得了评委和观众的一致好评。
自然语言到结构化查询语句是一个新兴的研究领域。维基数据库和蜘蛛数据集已经在国外由耶鲁大学和其他机构出版,但在国内市场上仍处于初级阶段。
第一次NL2SQL中文挑战赛用了8个月的时间准备,用了3个月的时间参加预赛和半决赛,共有1000支队伍参赛。最终,国防科技大学队获得冠军,国家队获得亚军,冠安信息与苗莹联合队获得第三名,华南理工大学、佛罗里达大学和浙江大学队获得优胜奖。
"用自然语言直接访问关系数据库一直是业界的梦想."复旦大学肖教授表示,本次竞赛的成果将加速NL2SQL的研究和应用。
中国数据集的结果与外国数据集的结果相当。
据报道,这是第一次在中国举办的NL2SQL挑战赛。组织者在竞赛期间发布了业内首个大规模中文数据集,包括4870个表格数据、近5万个标签数据和相应的SQL语句。
“我希望能为大家提供一个平台,通过生产、教学、科研等多方联动,共同推动NL2SQL的研究和应用。”据大通一号技术公司的联合创始人兼首席技术官刘云峰称。
本次比赛的评委来自学术界和工业界,包括肖、,以及中国移动研究院首席科学家冯、、新加坡南洋理工大学副教授毛克智、南京大学教授。专家为比赛提供了专业建议和资源支持。
“挑战的规模和参赛者的表现远远超出预期,显示了NL2SQL在学术和工业应用中的潜力。数据库的交互式创新正受到越来越多的关注刘云峰希望更多的高校和企业同仁携起手来,共同推动自然语言处理在中文研究和应用上的突破。
经过不断的努力和探索,参与团队在短时间内取得了与英语数据集相当的分数,并不断刷新记录。比赛开始时,准确率仍在60%以上。到8月份预赛结束时,榜单上顶尖团队的准确率已经达到89%,接近*。在重赛结束时,准确率达到92%,最终进入决赛的五支队伍的准确率都在90%以上。
展示国内青年的科研实力
近年来,中国研究者对语言智力的研究迅速增加。刘云峰说,中国学者在与人工智能相关的国际会议上发表的论文数量迅速增加。例如,在自然语言处理*国际会议上,中国学者在2018年发表了1544篇论文,到2019年,中国学者发表的论文数量飙升至2906篇。在CVPR(国际计算机视觉和模式识别会议),中国学者发表的论文数量从2018年的3300篇增加到2019年的7144篇。
竞赛也表明国内对自然语言处理的研究正如火如荼。据了解,在1457支参赛队伍中,机构和企业各占“半个国家”。
其中,学生和科研人员占48%,企业技术人员占52%。学生团队来自许多著名大学,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科技大学、哈尔滨工业大学、Xi交通大学等。
虽然本次比赛的数据内容是中文,但也吸引了美国、英国、新加坡、日本、澳大利亚和加拿大等海外顶尖机构的参与,包括卡内基梅隆大学、墨尔本大学、新加坡国立大学、南安普敦大学、新南威尔士大学、布里斯托尔大学和昆士兰大学。
作为一项新的自然语言处理研究任务,自然语言处理学习对运动员的专业难度也提出了更高的要求。据了解,57%的参赛者拥有硕士以上学位,其中6%拥有博士学位。就专业分布而言,具有计算机科学专业背景的玩家是主要玩家。
促进技术产业的应用
在激烈的竞争背后,NL2SQL的应用潜力也越来越受到重视。
来自中国移动、平安集团、搜狗、Ta-ta技术、中兴通讯、网景科技、郭爽科技、捷通华盛等多家企业的技术人员也成为参赛队伍中的一支重要力量。
与会专家表示,NL2SQL在银行、保险、证券、电子商务、汽车、房地产等数据挖掘领域具有巨大的应用潜力。它可以大大降低数据库的访问和使用阈值,更好地挖掘数据尤其是结构化数据的价值,使数据库不再“休眠”。
“参与这一挑战的规模比预期的要大得多,显示了NL2SQL在学术和工业应用中的潜力。数据库的交互式创新正受到越来越多的关注刘云峰说。
作为业内专家评委,冯·蓝军表示,NL2SQL是自然语言处理的一个非常重要的应用领域,涉及到自然语言处理领域的许多核心问题。他希望生产、学习和研究将在这一技术方向上共同合作和改进。
“在人工智能和数据库的互动中,我们再次看到了突破,看到了新的想象空间。”对于此次比赛的举办,创新工场董事长兼首席执行官李开复也表示,他期待更多NLP开发爱好者不断探索,努力推进NLP创新和包容性应用。