在期刊论文投稿前,使用iThenticate进行相似性检测已经成为科研人的常规步骤,由于稿件在撰写与交流过程中常以不同格式保存,作者常会关心:iThenticate是否支持PDF格式上传?PDF检测结果与Word文档检测结果是否一致?这个问题直接关系到查重前的准备与结果的准确性。
一、iThenticate支持的文件格式
iThenticate在文件格式支持上相对灵活,常见可直接上传的包括:
Microsoft Word 文档(.doc, .docx)
PDF文档(.pdf)
纯文本文件(.txt)
富文本文件(.rtf)
HTML文件(.htm, .html)
其中,PDF格式被广泛接受,尤其是在作者已将论文排版完成或通过投稿系统导出的情况下,使用PDF直接检测往往更方便,官方建议在上传PDF时,确保文件为可复制文本型PDF,而非扫描图片型PDF,以保证文本可被正确提取进行比对。
二、iThenticate处理PDF与Word的原理
iThenticate的查重原理是提取文档中的可识别文字内容,再与数据库进行逐句比对,这意味着,无论文件原始格式是PDF还是Word,只要文本内容在系统解析阶段被完整提取,理论上检测结果应保持一致。
具体处理过程:
1、系统先将文件解析为纯文本格式(不保留版式、图片和复杂排版)。
2、忽略图片、矢量图、公式图片等非文本内容(如果公式是MathType或LaTeX可编辑形式,可能被识别;若为截图则无法比对)。
3、提取连续文本段落进行分词、匹配,并计算相似度。
三、PDF与Word检测结果差异的可能原因
虽然从原理上看两者应一致,但在实际使用中,不少作者发现同一篇稿件的PDF与Word检测结果存在细微甚至明显差异,这种差异主要来自以下几个方面:
1、文本提取完整性不同
Word文档中的文字基本可以100%提取,而PDF可能存在编码差异、分段异常或特殊字体,导致部分文字在解析中丢失或被误判为空格。
例如,PDF中由特殊字体生成的引号、破折号可能无法被正确识别,进而影响句子匹配。
2、隐藏内容的处理差异
Word文档可能包含隐藏文本(批注、修订历史、页眉页脚内容),在上传时若未清理,这些隐藏内容也可能进入比对。
PDF导出过程中,这些隐藏内容通常被剔除,因此可能导致PDF查重率略低。
3、公式与表格的识别能力差异
若公式在Word中是可编辑文本(如MathType),可能被检测系统解析并参与比对;但在PDF中,公式更可能以图形形式呈现而被忽略。
表格中的文字在Word中较易被解析,而PDF中的复杂表格可能导致文本顺序错乱,影响匹配效果。
4、分页与段落标记差异
PDF文件中段落标记可能与Word不一致,iThenticate在分句和断行处理时会受此影响,进而改变匹配片段的长度与相似度计算结果。
四、小编的建议
为了确保查重结果稳定、可比性强,建议在使用iThenticate检测时注意以下几点:
1、优先使用Word版本检测
Word文本结构稳定,可减少因解析错误导致的差异,尤其在初稿阶段更适合作为查重版本,但一定要正常模式,修订模式会把修订历史等都一并查重的。
2、若使用PDF,确保为可复制文本型
避免上传扫描版或图片型PDF,可通过复制文字来测试是否可编辑。
3、统一文件版本进行对比
如果需要对比不同修改阶段的查重结果,应尽量使用相同格式、相同版本的文件,以减少因格式差异带来的波动。
4、提交期刊时遵循期刊要求
根据期刊投稿要求的版本,选择相同的格式进行检测,让差异降到最小。
总体而言,iThenticate完全支持PDF格式查重,且在文本可完整提取的前提下,PDF与Word的检测结果理论上应一致,但由于两种格式在文本解析、特殊字符处理、公式与表格识别等方面存在技术差异,实际检测结果可能略有出入。对于作者而言,理解这种差异并在查重前选择最有利的文件格式,不仅能提高结果的准确性,也有助于减少因格式问题带来的不必要风险。