在科研论文投稿或项目申报前,越来越多的作者会使用iThenticate进行内容的相似性检测,检测完成后,系统会生成一份查重报告,其中列出了稿件与数据库中已存在文献的相似来源及相应的重复比例,许多作者在阅读报告时,往往会习惯性地只关注最高的一部分重复来源,忽略了其他相似来源的分析。这个做法是否科学?我们应当如何正确解读报告中的多个相似来源?
一、iThenticate检测原理与相似来源的生成
iThenticate通过将待检测稿件与其数据库中的海量文献逐段比对,识别出与之相似的文本片段,并标记对应的来源文献,这些来源可能包括期刊论文、会议论文、学位论文、预印本、书籍章节以及网页内容等。
在检测结果中,如果稿件的某一部分与数据库中多篇文献均存在相似之处,iThenticate会将它们全部列为相似来源,并按照相似度从高到低排序,这样,作者不仅能看到与稿件重合比例最高的单一来源,也能了解稿件内容在学术网络中的分布式重合情况。
二、查重报告中最高重复来源的局限性
在实际使用中,有些作者只关注相似度排名第一的来源,认为这是“主要问题所在”,而忽略其他相似来源。但这种做法存在几个明显的风险:
1、可能忽略分散式重复
假如某些稿件的相似内容并非集中出现在一篇来源中,而是分布在多篇文献中,如果只关注最高来源,容易低估整体重复的严重性。例如,最高来源重复率只有5%,但后续十几个来源各有1%-3%的重合,加总后可能占据总相似率的20%以上。
2、无法识别引用习惯问题
如果多个相似来源来自同一领域的不同研究团队,可能意味着作者在某一段落的表述过于接近领域内的既有成果,反映出改写和引用方式上的不足。
3、易忽略跨语种或二次传播的重复
有些相似来源是同一篇原始文献的不同版本(如会议论文与期刊扩展版、OA预印本与正式出版版),或者是跨语言翻译后的版本,如果不对多个来源进行甄别,可能误以为是多处独立重合,从而影响判断。
三、正确解读多个相似来源的方法
1、先看总相似率,再看单一重复来源
总相似率是判断稿件整体重复风险的第一步,而单一重复来源能帮助判断重复的集中度和分散度,如果总相似率高,但主要集中于单一来源,可能是引用标注不规范;若分散于多个来源,则需全面调整表述。
2、关注高比例来源,但不忽略低比例多发的情况
高比例来源通常提示稿件存在较大段落的直接重合,是需要重点处理的部分,但多个低比例来源累积的影响同样不可小觑,尤其在期刊审稿环节,编辑会整体考虑。
3、识别重复内容的性质
如果是方法、公式等领域通用性表述,可能属于正常重复,如果是背景综述、数据解读等主观性较强的内容与他人一致,则需重新改写或调整结构。
4、结合学术规范进行修改
对于必须引用的内容,应确保标注完整,并尽量用自己的语言进行改写;对于可替换表述的段落,应调整结构和用词,降低与已发表文献的相似性。
四、编辑与审稿人的视角
值得注意的是,期刊编辑在审阅iThenticate报告时,并不会仅看最高重复来源,而是会综合评估总相似率、相似内容分布、重复部分内容的重要性和上下文关联性,某些情况下,即便最高来源重复率不高,但分散在多篇高质量已发表文献中的大量相似,依然可能导致疑似抄袭或缺乏原创性的判断。
因此,同学们在自查时也应当模拟编辑视角,全面评估稿件在学术网络中的重复画像,而不是只看一个数字或一个来源。
iThenticate查重报告中的多个相似来源,实际上是对稿件相似性分布的一种全景扫描,只看最高重复来源并不足以准确判断稿件的原创性风险,必须结合总相似率、来源分布、重复内容性质以及学术规范要求进行综合分析。这样,才能既降低投稿被退稿的风险,也确保科研成果在学术伦理上的坚实基础。