16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值
来源 | 物联网智库2022-04-15 16:19:28
近日,一篇由国内外多位AI专家学者参与署名的论文,在国内人工智能(AI)学术圈里引起了不小的震动...

近日,一篇由国内外多位AI专家学者参与署名的论文,在国内人工智能(AI)学术圈里引起了不小的震动。

这篇在今年3月26日发表于预印本网站 arXiv的关于“大模型”的综述报告《大模型路线图》(A Roadmap for Big Model),是由北京智源人工智能研究院(以下简称“智源研究院”,或“研究院”)发起的,旨在尽可能涵盖国内外该领域的所有重要文献。

据了解,该报告由多达16篇独立稿件组成,每篇文章都分别邀请了一组作者撰写并单独署名,有国内外多家高校和企业参与了该报告的完成,报告全文长达200多页,涉及来自清华大学、北京大学、中国人民大学、上海交通大学、哈尔滨工业大学、哥伦比亚大学、蒙特利尔大学等国内外高校,以及字节跳动、华为、京东、腾讯等企业以及中科院、微软亚洲研究院和北京智源AI研究院等机构的100多名作者。

而谷歌大脑(Google Brain)团队著名科学家Nicholas Carlini 在其近日的一篇博客中指出,该文章涉嫌抄袭。

Nicholas Carlini举出的证据是“大规模文本重叠”,并在文章中详细列举了该团队论文存在抄袭其他论文的出处,其中也包括他本人更早发布的《去重训练数据使语言模型更好》(Deduplicating Training Data Makes Language Models Better)。

16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值

4月13日晚,该报告的组织方——智源研究院连夜发表了《关于“A Roadmap for Big Model”综述报告问题的致歉信》。在道歉信中,智源研究院首先明确表示,已对报告进行了逐项核查,经查重确认,共16篇文章中的5篇文章章节,共759词的内容,与其他论文重复,应属抄袭。智源研究院表示,已从报告中删除相应内容,报告修订版在13日当天,将提交arXiv进行更新。目前,研究院已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。

该事件在国内AI学术社群中,也引发了不同的反响。

事件爆出后,尽管有很多网友在第一时间发起群嘲,但也有一些网友从客观角度对事件进行了分析。首先,有来自AI学术圈的网友表示,此次事件虽然属于“抄袭”,但也并不是很多圈外人所想象的那种“抄袭”。

16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值

从性质上看,“大模型”一文属于综述报告,和一般意义上的科研论文相比,“综述”是一种“总结”,资料来自文献;而“科研论文”的数据是由研究者通过科研设计,自己收集而来。因此,综述论文与科研论文无论从性质上还是构成上,都不可同日而语。另外,本次被指抄袭的报告由多达16篇文章构成,且由不同组织机构分别独立撰写,因此为什么会出现所谓“抄袭”的原因,还需要进一步调查。

还有网友表示,《大模型路线图》的内容涉及从“大模型”构建前提条件开始,到“大模型”应用结束的全流程研究工作,为大模型发展的历史和应用流程梳理出了清晰的脉络,本来可以帮助读者更好理解“大模型”的发展历史和研究现状,对于大模型领域的未来发展也能起到指引性的作用,原本应当是一篇极具价值的研究综述,但目前由于抄袭事件,该文章的重要性恐怕要大打折扣,这对于国内外大模型研究,乃至人工智能学术研究来说,都不失为一件憾事。

有网友表示,该报告是由“百名作者、16篇文章”组成的综述报告,是对大量原始文献的归纳、总结、分析,再添加作者观点而形成,但过多的作者和机构参与,庞大的创作团队规模显然容易出现各种“难以预料的问题”。

16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值

最初发起指控的Nicholas Carlini本人近日也更新评论发出呼吁,“不要把这变成一场猎巫行动。” Carlini在评论中表示,“这篇论文有100位作者,任何事情都有可能发生。” “跨度这么大的涉嫌抄袭行为,绝对不止涉及个别作者。一小部分作者的不当行为,不应该被用来指责大多数行为良好的作者。”

16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值

还有一些网友则直接认为,该文章的署名作者“都有责任”。网友表示,原则上来说,一篇文章的所有署名人员必须:对研究工作的思路或设计有重要贡献,或者为研究获取、分析或解释数据;起草研究论文或者在重要的智力性内容上对论文进行修改;对将要发表的版本作最终定稿;同意对研究工作的各个方面承担责任以确保与论文任何部分的准确性或诚信有关的问题得到恰当的调查和解决。换句话说,其所有署名的作者都负有责任。

另外,还有部分媒体,对该事件可能对未来国内AI研究前景产生的负面影响表示担心。有媒体撰文表示,该篇论文之所以得到关注,正是因为作者署名多达100人,且其中不乏国内AI业界和学界的知名学者,供职机构更是把中国知名高校和互联网巨头几乎一网打尽。此次事件,或许会给中国 AI 学术研究热潮造成一定打击。

16篇文章组成的综述报告部分存问题:网友呼吁不应抹杀全部价值

不过,也有一些网友指出,作为世界上最大的预印本网站,arXiv上发表的论文有“占坑”性质,谁的论文在arXiv 挂的早,谁就拥有了这个论文的权力,因此为了抢先占住idea,有些论文的正规性欠缺打磨和推敲,此次“论文抄袭事件”,在某种程度上也反映出一些AI学术研究机构本不应有的急躁情绪,应引以为戒。