在全球英文学术出版生态中,Crossref作为一个核心的DOI注册机构和元数据聚合平台,承担着重要的信息连接和查重数据支撑角色,随着学术不端治理力度的加大,越来越多的期刊和查重系统(如iThenticate)依赖Crossref提供的数据库资源进行相似性检测和来源确认。随便使用Crossref进行投稿前查重越来越成为主流,同学们可能想多点了解Crossref包括哪些数据库,比如是否包括博士学术论文,预印平台等?
一、Crossref数据库的构成与覆盖范围
Crossref成立于2000年,是由全球学术出版机构联合发起的非营利组织,其核心功能是为学术内容分配数字对象标识符(DOI),并汇聚内容元数据、参考文献、引用链等数据。目前已有超过19,000家学术机构成为其成员单位,数据库中收录的文献量已超过1.5亿条。
Crossref数据库的收录范围包括但不限于:
- 期刊论文(包括SCI、SSCI、EI、中文核心等)
- 国际会议论文
- 图书章节与整本专著
- 学位论文(由授权机构注册)
- 数据集、研究报告、工作论文
- OA预印本(如arXiv、bioRxiv、SSRN等)
- 软件代码与多媒体资料
但值得注意的是,Crossref本身并不主动“收录内容”,而是依赖其成员单位将拥有DOI的内容注册并上传元数据和相关比对信息,因此,覆盖范围的广度与质量,取决于内容提供者是否积极参与及其所提交内容的完整性。
二、会议论文的覆盖情况
Crossref对国际会议论文的支持较好,尤其是IEEE、ACM、Springer、Elsevier、Wiley等出版社旗下的会议文集,几乎全部注册有DOI并纳入Crossref数据库。例如:
- IEEE Xplore上的会议论文,全部具备Crossref DOI;
- Springer LNCS系列会议文集,均已入库;
- ACM Digital Library中的会议论文,引用与元数据亦全面对接Crossref。
但对于国内部分会议论文(如中文核心会议、学校自主举办的非正式会议),如果未通过国际出版社或未注册DOI,则不会被Crossref收录,也不会出现在iThenticate等查重系统的比对库中。
三、博士学位论文的覆盖情况
Crossref原则上支持博士学位论文注册DOI,但是否被纳入数据库,取决于学位授予机构或出版渠道是否为Crossref成员并主动提交该类内容,在欧美国家,部分高校或学术出版平台(如ProQuest、ETHOS、PQDT)通过授权渠道向Crossref注册博士论文DOI。例如:
- 美国多数大学博士论文通过ProQuest平台发布,并同步元数据至Crossref;
- 英国国家图书馆的ETHOS项目,也将部分学位论文对接Crossref数据库。
但在亚洲尤其是中国内地、中国台湾等地区,多数高校尚未将学位论文注册DOI,也未将其元数据提交至Crossref,因此,中文博士论文在Crossref数据库中的覆盖率相对有限,在英文查重系统中的检出率也相应偏低。
四、OA预印本平台的覆盖情况
近年来,预印本平台(Preprint Server)在学术传播中迅速崛起,尤其在生命科学、物理学、社会科学等领域。Crossref对于OA预印本的支持较为积极,目前已对接多个主流预印本平台,包括:
- arXiv(物理、数学、计算机科学)
- bioRxiv、medRxiv(生物医学)
- SSRN(社会科学)
- ChemRxiv、PsyArXiv 等
这些平台在文章发布时会获得Crossref分配的DOI,并上传元数据及参考文献,进入Crossref数据库,并可被iThenticate等查重工具调用,如果作者引用或翻译了来自arXiv等平台的预印本内容,极有可能被系统检测到相似内容。但也有少部分新兴或地区性预印本平台尚未对接Crossref系统,其文献内容在查重时存在遗漏风险。
五、Crossref查重数据库的实际调用机制
在实际查重中,Crossref通过和Turnitin公司合作,Turnitin公司提供比对技术,Crossref提供文献数据库,这一过程主要依赖于:
- 全文比对许可(Full Text Similarity Check):Crossref会员可自愿将其内容全文授权用于查重比对。参与的出版机构需上传全文并开放给合作检测系统;
- 比对系统(如iThenticate)需获得访问授权,并根据机构级别调用不同深度的数据层。
因此,即使某篇会议论文或预印本拥有DOI并注册在Crossref中,若发布机构未授权其全文用于查重,系统也无法进行深度比对,仅能做元数据比对或参考文献识别。
六、我们应如何理解Crossref的查重覆盖能力?
综合来看,Crossref查重数据库覆盖会议论文、博士论文和OA预印本的能力在全球范围内是逐步增强的,但仍存在明显差异化:
- 对于国际正式出版的会议论文、OA预印本,覆盖率较高;
- 对博士学位论文的覆盖,取决于出版路径与注册行为;
- 中文内容覆盖仍较为薄弱,尤其是非公开渠道的学术成果。
科研人员在使用查重工具(如iThenticate)前,应充分理解其背后依赖的数据库结构和比对机制,不能简单依赖查重结果作为“是否重复”的唯一标准,更应重视学术诚信、规范引用,并理解技术工具的边界。