新可视化工具使在线发表更具交互性再现性
双胞胎映射项目
当本杰明·德洛里开始写关于记录一种新的植物形态量化方法的论文时,他意识到一些数据可能会引起问题。本文提出了一种“持久条形码”来描述植物根系的分枝结构。挑战在于如何解释它。德国吕纳堡大学的博士后德洛里说,条形码的基本算法是“连续和动态的”。表达动态的最好方式是“让它动起来”
科学数据被认为是典型的静态图像。然而,这些静止图像与基本数据是分开的,这将阻止读者更详细地探索它们,例如放大一些有趣的特征。这对于基因组学来说尤其困难,他们需要用只有几厘米大小的密集视觉效果来填充数百万个数据点。
计算机操作领域的研究人员也是如此。科学家们经常把软件放在开源库中,比如GitHub,但是让代码正常工作“说起来容易做起来难”。审查者和相关方通常需要额外的软件和配置来运行这些算法。
一些期刊和平台通过支持交互式数据和代码来弥补这一差距。其中之一是F1000Research(F1000Research是面向生命科学研究人员的开放式研究出版平台),它与蒙特利尔的加拿大计算机公司Plotly和纽约的组织Code Ocean合作。正是因为这些功能和F1000Research的开放存取概念,德洛尔和他的合作者在那里提交了他们的论文。结果于一月份公布。
交互式出版
让读者深入了解文章基本数据的交互式图表是许多网站的常见功能,如《纽约时报》和fivethirtyeight.com,但这种图表在科学出版中并不常见。
F1000Research的高级出版编辑托马斯·英格拉姆(Thomas Ingraham)表示,该杂志的“实时数据”——2014年推出的交互式图表,可以随着新数据不断升级——不仅耗时耗力,而且不够灵活。另一方面,Plotly允许用户创建和共享从散点图和折线图到等高线图和地图的视觉内容。生成的图像允许用户放大数据、平移图像并移动鼠标来查看绘制的值。学生订阅费起价为每年59美元。开放源代码库允许研究人员创建从R、MATLAB、Python到Julia代码的*图表。
代码海洋每月免费向学者开放10小时和50千兆字节的存储空间。费用类别从每月19美元开始。它将代码、数据、结果和计算环境结合在一起,可以在一个包含作者计算配置副本的“计算容器”中执行任务。其他用户可以从代码海洋网站或论文中的组件下载、修改和运行代码。
F1000Research现在已经发表了六篇包含普罗特利“活动图”的论文和五篇包含代码海洋小部件的论文。今年,该杂志计划增加对交互式“蛋白质-蛋白质相互作用”地图的支持,这种地图是使用网络地图工具细胞图生成的。
研究人员不需要被感知的复杂性所困扰。据南达科他州布鲁金斯州立大学的计算生物学家西金·葛说,他在一篇论文中加入了一个交互式的情节图表,只需要一行额外的代码就可以创建相关的数据。西澳大利亚大学海洋学研究所和地球科学系的珊瑚学者汤姆·迪卡洛(Tom DeCarlo)为几个期刊创建了六个海洋项目代码,包括《古海洋学杂志》、《古气候学杂志》和《生物地球科学杂志》。"我认为这对科学交流和再现性非常重要."他说。
开源方法
对于那些寻找开源计算替代方案的人来说,一个叫做Binder的工具可以将任何包含Jupyter记事本(文件、代码和数据交织在一起的文件)或R代码的通用GitHub库转换成一个允许用户从浏览器的一端运行的包。用户只需在mybinder.org网站的搜索栏中输入记事本存储库的地址,该程序就可以创建一个可共享的交互式工作空间。圣路易斯奥比斯波加州州立科技大学活页夹项目团队的卡罗尔·威林说:“它确实适用于再现性,而且易于使用。”
瑞士苏黎世活页夹项目团队的成员蒂姆·海德说,类似的工具也可以简化同行评审。海德有点沮丧,因为当他被邀请评论一篇期刊文章时,他被禁止使用该软件。“如果他们给我发了活页夹的连接,我们现在就已经完成了。”他说。
开源选项也可以用来创建交互式图像,包括bokeh、htmlwidgets、pygal和ipywidgets。其中大多数都是以编程方式使用的,通常是在科学中广泛使用的R或Python代码中。例如,程序员可以使用ipywidgets将交互式3D绘图、地图和分子可视化到Jupyter记事本中。另一个用JavaScript编写的选项是Vega-Lite。由于这种语言在科学领域并未广泛使用,加州州立科技大学的布莱恩·格兰杰和西雅图华盛顿大学的杰克·范德普拉开发了一种叫做“牵牛星”的Python界面,使其更容易访问。
这些工具大多倾向于为特定的图表类型提供功能。Vega-Lite和Altair类似于灵活的“语法”,可以用来描述变量如何映射不同的视觉特征,如颜色或形状。它们还将图表关联起来,以便当用户选择绘图区域时,附近的显示会相应地更新。杰弗里·赫尔是华盛顿大学的计算机科学家,他的团队开发了维加-莱特,他说:“事实上,它允许我们以多维方式探索相关性。”
另外两种产品允许研究人员创建可以利用小部件的交互式应用程序,例如下拉菜单和滑块控件,它们可以用来混合数据、图表和代码,包括马萨诸塞州波士顿的RStudio公司生产的闪亮的R编程和普罗特利公司生产的Dash for Python编程。它们通过将用户小部件的动作转移到远程服务器来工作,远程服务器可以运行底层代码并更新页面。
由此产生的应用程序允许不喜欢编程的研究人员获得相关的数据和工具。例如,以色列特拉维夫大学的研究生塔尔·加利利开发了一个基于普罗特利的工具箱,可以从上传的数据集制作交互式热图。闪亮的界面可以在幕后运行代码。北卡罗来纳杜克大学的统计学家米恩·切廷卡亚·朗德尔为本科统计学课程建立了闪亮资源,帮助他们在课堂上解释一些难懂的概念。“这种感觉非常好,停下来说,‘好了,既然我们已经介绍完了,当我们移动小部件时会发生什么呢?’”她说。
在期刊网页上发布这种集成需要改变编辑工具、编辑过程和基础设施。它还涉及向第三方提供科学数据,而第三方的表现并不总能得到保证。
为了解决这个问题,开放存取出版商eLife的产品开发主管朱利亚诺·麦克西说,eLife的“可再现文档堆栈”项目旨在创建一个端到端的工具包,用于编辑、提交和发布可计算再现的文档。他表示,该计划旨在将论文的核心科学“产品”——文本、数据、代码、图表和计算环境——压缩成一个可下载的对象。为了鼓励它的使用,该杂志将堆栈设置为开放资源。
站出来
其他几家杂志和出版商也在支持代码海洋的整合,包括GigaScience、IEEE、SPIE、剑桥大学出版社和Taylor&Francis。《细胞生物学杂志》的JCB数据查看器是基于开放源码的OMERO软件,允许读者浏览原始的显微镜图像,而不是通常看到的经过处理的压缩文件。一个相关的工具,图像数据资源,可以为任何期刊上发表的论文提供类似的功能。《自然》杂志也发表了互动数据,比如一篇描述“DNA元素百科全书”项目的论文。一位发言人说,该杂志正在研究其他几种交互式代码和数字的选择。同时,研究人员经常从他们的文章中链接到外部视觉效果。
得克萨斯州休斯顿贝勒医学院的埃雷兹·利伯曼·艾登说,随着越来越多的期刊采用交互性,科学信息的在线呈现可能会发生根本性的变化,这代表着再现性的胜利。艾登最近在《细胞》杂志上发表了一份交互式核染色质相互作用图,称静态图标只是数据的一个方面。“有洞察力的读者需要能够得出自己的结论。”他说,“1974年阅读一篇论文的行为不应该与2017年阅读一篇论文的行为相同。”(晋南编)
阅读更多
《自然》杂志的相关报道
上一篇:尼日利亚再现脊髓灰质炎