欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

发现心理学论文中的错误

科普小知识2021-07-06 08:11:59
...

最新研究发现,斯塔切克在95%的情况下都能得到正确的结果,但是批评家们并没有被说服。

资料来源:环境健康信息1979/ISTOCKPHOTO

当荷兰研究人员开发出一种开源算法来标记心理学论文中的统计错误时,科学界收到了不同的反应,尤其是在这个免费工具阅读了数万篇论文并在网上公布了结果之后。许多人质疑称之为statcheck的算法的准确性,或者认为它等同于公开羞辱科学界。

但事实上,statcheck的开发人员最近在一份发表在预印服务器PsyArXiv上的研究中声称,该算法可以在95%以上的情况下获得正确的结果。一些局外人同意这一点,并呼吁将其作为常规应用。"最新的论文令人信服地表明,statcheck确实可靠。"格罗宁根大学的心理学家卡斯帕·艾伯斯说。然而,其他人还没有被说服。

Statcheck是由蒂尔堡大学的方法论科学家MichèleNuijten和阿姆斯特丹大学的心理学家Sacha Epskamp于2015年开发的。它可以搜索论文,找到以美国心理协会(APA)规定的标准格式发布的数据,并使用它们来计算有争议但被广泛使用的用于衡量统计显著性的P值。如果计算的P值与研究人员报告的结果不同,该工具会将其标记为“不一致”;如果报告的p值低于常用的0.05阈值,statcheck无法获得数据,或者相反,它会将其标记为“极度不一致”,并可能对文章的结论提出质疑。假P值越来越被认为是一个大的心理问题。Nuijten认为大多数错误都源于人类,但statcheck无法区分不当行为和无意错误。

在2015年的一项研究中,Nuijten和他的同事使用statcheck阅读了30,000多篇心理学论文,然后发现一半的论文包含至少一个数据不一致,八分之一的论文显示“极其不一致”的现象。去年,努伊金顿的同事、蒂尔堡大学的克里斯·哈特杰林克(Chris Hartgerink)用statcheck分析了50,000多份心理研究报告的近700,000个结果,并自动将其发布在发表后的同行评议网站PubPeer上。同时,该论文的作者收到了一封电子邮件通知。一些研究人员对反馈表示欢迎,但德国心理协会(DGP)表示,该出版物造成了不必要的声誉损害。普林斯顿大学心理学家、心理科学协会前主席苏珊·菲斯克认为这种努力是“一种骚扰”。类似的研究只进行过一次。从那以后,研究人员没有公开使用statcheck来阅读论文。

Statcheck是否公平,部分取决于它的准确性。“如果事实证明,自动检测在99%的情况下都是准确的,那么它真的很好。如果准确率只有90%,我会对现有的流程非常不满。”牛津大学发展神经心理学家多萝西·毕晓普告诉《戒断观察》网站。

在最新发表的论文中,研究人员使用statcheck分析了49篇文章。在2011年发表的一篇论文中,Nuijten的同事人工验证了这些文章中统计数据的不一致性。他们发现算法的“真阳性率”为85.3%~100%,而“真阴性率”为96%~100%。总的来说,这些数据意味着statcheck在96.2%~99.9%的情况下从提取的结果中得到正确的答案。

研究人员还试图解决另一个批评:当研究人员对数据进行合理的统计修正时,statcheck经常出错。通过寻找特定的关键词,研究人员发现这种修正比他们在以前的论文中估计的更普遍。同时,修正的数据不是不一致的主要来源。

凯泽斯劳滕大学的实验心理学家托马斯·施密特很谨慎。他在最近发表在PsyArXiv上的一篇评论中指出,由于statcheck只适用于APA风格的报告,因此该算法只能在61%的统计数据测试中计算p值。根据施密特的计算,斯塔克的“不良敏感度”只有52%。“它不能被普遍接受为一种研究工具,当然也不能用于大量论文的纯自动扫描。”对此,Nuijten表示,他的团队从未声称statcheck能够处理所有报告的统计数据,而最新研究的重点是验证该算法在处理其识别的数据时表现如何。

马尔堡大学的DGP秘书兼心理学家MarioGollwitzer现在被这个算法说服了。他认为,尽管论文不应该仅仅因为statcheck的结果而被拒绝,“我们认为作者应该在提交给杂志之前使用这个算法来扫描论文的内容。”

有些人已经这样做了。Nuijten说,自从开发者在2016年9月发布statcheck作为一个网站应用程序以来,已经有超过18000名访问者获得了这个程序。“statcheck可以非常快速地检查大量统计数据,并识别可能有问题的数据子集。”总部设在弗吉尼亚州的开放科学中心的执行主任布莱恩·诺斯克说,“这是一个巨大的效率增益。”

一些新的心理学杂志已经把statcheck作为他们同行评审过程的一部分。Nuijten设想将算法扩展到其他学科,如生物医学。"斯塔克不是完美的。"它的开发者自豪地说,“但它非常接近完美。”(宗华编译)

阅读更多

科学相关报道