随着预印本(Preprint)平台在全球科研圈的迅速普及,越来越多的学者选择在投稿前将自己的研究成果发布在如 arXiv、bioRxiv、medRxiv 等平台。这一做法加快了科研传播速度,但也带来一个重要问题:
如果我把论文发在预印本平台后再投稿,期刊用 CrossCheck 查重时会不会算成重复?
预印本是否会被 CrossCheck 系统收录?
如果收录了会不会被视为抄袭?
这些问题可能很多同学都想知道,否则容易因自我抄袭而遭遇修改要求甚至拒稿。

一、CrossCheck 是什么?数据来源包括哪些?
CrossCheck 是由 iThenticate 和 Crossref 联合开发的一种学术查重系统,现在同学们也直接叫Crossref,它是目前全球多数英文SCI/SSCI期刊所使用的查重工具,该查重系统会把作者提交的稿件与全球数千万篇已发表学术文献数据库中的内容进行比对,判断其相似度和潜在的抄袭风险。
CrossCheck的比对数据库主要来自以下来源:
- Crossref注册的期刊文献(含Elsevier、Springer、IEEE等主流出版社)
- 会议论文、学位论文、技术报告
- 开放获取平台的内容
- 以及部分预印本服务器的数据(包括arXiv、bioRxiv等)
也即是说,CrossCheck 是会比对预印本平台上的文章内容的。
二、预印本收录的内容会被当作重复比对吗?
这是一个更复杂但也更实际的问题,我们试着从两个角度来理解:
1. 程序上:预印本可能被识别为相似来源
在实际查重过程中,如果你投稿的文章与某个预印本在文本内容上相似度较高(尤其是段落级别的直接重合),系统会标记为相似来源,并在查重报告中列出该预印本页面或DOI地址。
尤其是以下情况,更容易被识别:
- 摘要、引言、方法部分几乎未作改动;
- 图表说明或参考文献复用;
- 结构、用词保持一致。
因此,如果您在arXiv或bioRxiv发布的是完整论文,投稿时未作修改,则查重结果中出现高重复率是正常现象。
2. 编辑层面:期刊如何判断重复内容是否合理?
尽管预印本可能会被系统标记为相似来源,但是否算作抄袭或重复发表并不一定由系统决定,主要取决于编辑。
大多数SCI期刊对预印本的态度是中立和支持的,尤其是:
- 已明确在投稿指南中允许作者提前发布预印本;
- 编辑可识别该相似来源为作者自己此前公开的未发表版本;
- 文中注明该研究的预印本版本已发表于arXiv/bioRxiv。
在这些前提下,编辑通常会视该相似内容为合理重复,并不会因此拒稿或认定为抄袭。
三、如何合理处理预印本与正式投稿之间的重复问题?
为了在查重和投稿中规避不必要的误会,建议作者注意以下几点:
1. 对预印本进行适当修改再投稿
尤其是引言、方法和结论部分,建议用不同表述方式进行润色和调整,避免程序上的查重重复。
2. 投稿时在Cover Letter中声明预印本来源
建议主动在投稿信中说明:本稿件的早期版本已于[日期]发布在 arXiv(或bioRxiv),但该平台未进行同行评审,且本稿为最新、完整版本。
3. 在正文或脚注中注明预印本发布情况
如:“A preprint version of this manuscript is available at bioRxiv under DOI: xxx”,增加透明度,有助于编辑理解查重结果。
4. 提前使用iThenticate自查
在投稿前使用与期刊一致的查重工具检测自己的稿件是否与预印本重合,并针对高重复部分进行合理修改,是最稳妥的方式,如有需要剔除预印本重复再出报告,可联系Crossref中文网站客服协助处理。
CrossCheck查重系统确实会比对如 arXiv、bioRxiv 等主流预印本平台上的内容,如果作者的正式投稿稿件与其早期预印本版本高度一致,那么系统的查重结果有可能显示100%重复或者高重复率。
不过,是否因此被认为是重复发表,取决于编辑的判断标准、期刊政策以及作者是否清晰说明来源,只要信息披露得当、文本表达适当调整,使用预印本并不会影响正式出版,反而体现出学术研究的开放性与时效性。因此,Crossref中文网站小编建议同学们无需提前提交预印本平台,先提前了解期刊要求,再根据需要做出决定,希望大家投稿顺利。