有些同学在使用 CrossCheck(基于 iThenticate 的相似性检测体系)查重时,犹豫提交什么格式去重复,word格式还是PDF格式?哪个格式的文档查重更准确?特别是图文混排的文章,这一问题并非技术细节,而是直接关系到查重结果是否可靠、是否可被期刊编辑采信。今天小编就同学这个疑问来展开聊聊:

一、CrossCheck是如何读取文件内容的?
首先,CrossCheck并不是一个图像识别系统,它的核心能力在于对可编辑文本的相似性比对检测,而非对图片本身进行分析。
当作者上传文件时,系统会经历两个关键步骤:
文本提取(Text Extraction)
文本相似性比对(Similarity Matching)
只要文件中的文字能够被系统成功提取,它才会进入后续的查重流程,无法被识别为文本的内容,将被直接忽略。
二、图文混排PDF对文字识别准确性的影响
在实际使用中,PDF文件对查重准确性的影响,主要取决于PDF的生成方式,而非是否图文混排本身。
1. 原生PDF(可复制文本)
如果PDF是由 Word、LaTeX 等排版软件直接导出,且正文文字可以被正常复制,那么:
- CrossCheck通常可以较完整地识别正文文本;
- 查重结果在多数情况下与Word版本接近;
- 图像部分(如插图、示意图)不会参与查重,这是正常现象。
这种PDF一般不会对文字识别产生实质性影响。
2. 扫描型或图片型PDF
如果PDF来源于扫描(例如扫描版期刊、复印件、拍照转PDF),其中文字实质上是图片,而非文本字符:
- CrossCheck不会自动进行高精度OCR识别;
- 图片中的文字通常无法被读取;
- 大量正文内容可能被跳过,导致相似度明显偏低。
在这种情况下,查重结果并不可靠,容易出现低重复但并非真正原创的判断。
3. 复杂图文混排结构
即便是原生PDF,如果存在以下情况,也可能影响文本提取质量:
- 多栏排版、跨栏公式
- 图中文字与正文高度混合
- 特殊字体或嵌入字体
- 表格作为图片嵌入
这些因素可能导致部分文字顺序错乱、段落断裂,从而影响比对精度。
三、CrossCheck是否依赖OCR?
这是一个常见误解。CrossCheck本身并不以OCR为核心能力。在大多数标准检测流程中,它主要依赖文件内的原生文本层。即便某些平台在后台使用了基础OCR工具,其识别精度也远低于专业OCR软件,不能保证学术查重所需的完整性和准确性。因此,不能指望CrossCheck自动把扫描PDF识别得和Word一样准确。
四、Word格式与PDF格式,哪种查重更准确?
从查重稳定性和可控性角度看,结论是:在绝大多数情况下,Word格式比PDF格式更准确、更可控。
原因主要包括:
- Word是原生文本格式
- 所有正文内容均可被完整读取
- 段落结构清晰,不易错位
- 公式、表格、注释识别更稳定
- Word中的表格文字通常可参与查重
- 批注、修订可在提交前统一清理
- 避免OCR不确定性
- 不依赖图片识别
- 查重结果更接近编辑端检测结果
PDF格式的优势主要在于版式固定,但这一优势对查重本身并无实际帮助。
五、编辑和期刊通常更认可哪种格式?
从编辑实践来看:
- 投稿前自查:更推荐使用 Word
- 正式审稿阶段:编辑端通常也基于可编辑文本进行检测
- PDF版多用于排版确认,而非查重判断
如果作者提交的是PDF,编辑系统往往会先将其转换为可编辑文本再检测,这一转换过程本身就可能引入误差。
六、给作者的实际建议
- 查重阶段优先使用Word格式,尤其是投稿前的关键检测,不建议使用扫描PDF。
- 避免使用图片型正文,表格和文字尽量不要以图片形式嵌入。
- 如必须使用PDF,先测试可复制性,若无法正常复制正文文字,查重结果基本不具参考价值。
- 重要稿件尽量与期刊使用同一格式检测,这有助于减少作者与编辑端查重结果不一致的情况。
总体而言,CrossCheck在处理图文混排PDF时,文字识别的准确性高度依赖PDF本身的文本结构,对于扫描型或复杂排版PDF,文字识别存在明显局限,查重结果可能不具有参考性;相较之下,Word格式在文本完整性、结构稳定性和查重可控性方面明显更优,也是大多数期刊和编辑更为推荐的检测格式。清楚这一点,有助于作者在查重阶段做出更合理的格式选择,避免因文件形式问题而对论文原创性产生误判。