学术搜索:走向“智能”化
■我们的记者季红梅
学术搜索一直是谷歌、微软和百度等IT巨头的战场之一。最近,微软的学术搜索做了频繁的努力,给这个市场增加了一些变数。
10月28日,在第17届“21世纪计算”大型学术研讨会上,微软与清华大学共同签署了“学术大数据工程”合作备忘录,计算领域的大师出席了此次研讨会。该备忘录旨在将清华大学在大数据领域的研究成果与微软在搜索领域的丰富经验相结合,并进一步改善微软的学术搜索结果。此前,微软学术搜索刚刚发布了一个新版本,并将其嵌入必应搜索引擎。
“与传统搜索引擎相比,我们更重视‘智能’。”微软研究院首席研究员、互联网研究中心主任王冠三在接受《中国科学》采访时,对微软学术搜索的“新气象”做了这样的总结。那么,这个“智能”学术搜索怎么样?
让搜索拥有“图书馆员”
“21世纪的计算”是微软亚洲研究院自成立以来举办的学术活动。它已经成为中国和亚太地区最大和最有影响力的计算机科学教育和研究活动之一。这次会议的主题是“人工智能”。
王冠山告诉《中国科学报》,微软从去年开始将人工智能技术应用到搜索领域,通过云计算、大数据和其他技术为用户提供更多定制服务,使得必应搜索更加“智能”。因此,目前在线的新版微软学术搜索将Azure云计算功能与基于Bing的大数据搜索技术和微软研究院的先进算法相结合,并在产品性能、数据更新和用户体验方面进行了深入优化。
"传统的搜索引擎基本上依赖关键词,而我们更强调智能搜索."王冠山告诉记者。他举了一个例子,好像在图书馆里搜索相关的书目。如果你知道关键词是什么,比如标题或作者,你可以通过搜索索引快速找到相应的材料。当你不确定关键词时,你可以向图书管理员寻求帮助。
“我们现在正在做的是像图书馆员一样提供‘智能’服务。”王冠山说道。以人工智能为例。如果你依靠关键词搜索,将会有无数的文章标题中有“人工智能”这个词。然而,对于新手来说,基于时间的检索和基于相关性的检索都不能在短时间内提供对人工智能的全面理解。例如,人工智能的定义是什么?相关领域是什么?哪些会议与它密切相关?这个领域中哪些重要的学者值得关注?
通过微软的学术搜索,你可以获得学术图谱的知识。搜索结果可以通过聚集学术论文、国际会议、权威期刊、研究专家和其他专业学术资源实体来构建学术地图集系统。具体到一些论文,这些论文的标题中可能没有“人工智能”这个词,但微软学术搜索可以基于对语义和学科的理解进行智能排序,这与传统搜索有很大不同。
多机种网络
微软与清华合作后,清华将成立一个跨学科的科技大数据研究中心,清华大学计算机科学与技术系副教授唐杰将担任该中心的执行主任。
唐杰告诉记者,清华大学的学术大数据成果主要体现在其学术社交网络服务系统AMiner的研发上。该系统以学者为中心,利用数据挖掘和社会网络分析技术,从海量文献和互联网信息中自动获取学者的相关信息,如职位、电子邮件地址、相关论文等,从而分析学者的研究领域和成果,连接相关知识点。
相比之下,微软的优势是通过必应的高效分发系统抓取和分析大量结构化页面和论文,以获得更大的覆盖范围和更高的准确性数据。因此,通过与清华大学的合作,微软可以将知识与学者联系起来,建立信息与人融合的异构网络,提供更多的搜索功能和知识服务。
这种合作对于解决学术搜索中广泛关注的“重名消歧”问题具有重要意义。王冠山告诉记者,微软与清华大学合作的内容之一是充分利用搜索引擎检索到的所有信息,如社交网络上的相关信息,以进一步优化搜索结果。“例如,当使用微软当前的学术搜索来搜索迈克尔·乔丹时,我们会发现有五六个人用这个名字,我们会使用重名消歧的方法来给搜索者一个提示,告诉他们你是在找某个领域的医生、明星运动员还是教授,并使用这些辅助信息来检测准确的搜索对象。”
唐杰坦率地说,解决姓名重复和歧义问题非常困难。目前的解决方案主要包括机器学习和基于规则的方法。“将来,我们希望通过众包,我们不仅能消除我们自己论文的歧义,还能消除老师和朋友的歧义。我们将在消歧过程中得到一些小分数,这些小分数可以用来免费下载论文。这样,整个生态系统就可以开放了。”
开放式平台
记者在冰的主页上看到,目前微软学术搜索支持的语言是英语。今后,在与清华大学等国内机构合作后,中文和其他语言也能加入行列吗?
在唐杰看来,搜索语言的扩展与内容密切相关。“我希望有一天,搜索到的内容将成为一个开放的市场,每个出版社和科技相关的数字内容提供商都可以贡献自己的数字内容,从而解决中文和英文的语言问题。”
王冠三还表示,微软学术搜索将致力于打造一个开放的平台。目前,内容提供商如埃尔塞维尔和汤森路透,以及学术权威如美国计算机协会(ACM)和电气与电子工程师协会(IEEE)是微软的合作伙伴和客户。未来,他希望更多的数字内容提供商将参与这个平台。
搜索到的论文能否全文下载也是学者们关心的问题。王冠三告诉记者,随着国际学术开放获取运动的推进,只要是开放获取且不存在版权问题,就可以通过微软学术搜索免费下载期刊内容。对于一些不属于开放访问类别的内容,微软学术搜索还会根据需要将用户带到出版商的主页。如果一所大学或研究机构与出版商达成协议,学者们可以下载这些论文的全文。
《中国科学报》(第五版《技术与经济周刊》,2015年11月3日)
推荐阅读