文档抄袭检测

摘 要:针对作业抄袭现象,建议教师使用作业抄袭检测系统,分析了各种文档抄袭检测系统和文档特征提取方式,研究并提出了基于句子相似度语句定位的作业抄袭检测.

关 键 词:文档抄袭;特征提取;文本块

中图分类号:TP393文献标识码:A文章编号:1674-7712(2013)04-0034-02

一、引言

电子文档抄袭可以分为两类,一类是文档之间的相互抄袭,学生作业以这类抄袭居多;另一类是对网络上的文档进行抄袭,这类抄袭一般以“思想汇报”和“总结报告”居多.根据抄袭程度不同,分为轻度抄袭和重度抄袭.复制他人部分文档句子或段落,或复制他人少量章节,这些都是属于轻度抄袭;复制他人全部文档且不修改任何内容或仅做少许修改,这些都是属于重度抄袭.教师批改电子文档作业时,需要耗费大量时间鉴别学生作业是否有抄袭,也难于对作业做出正确评判.同时,对“谁抄袭谁”也不好界定.当学生数量足够庞大,鉴别抄袭就成了海量工作.所以,研制出电子文档类作业抄袭检测软件,可以将教师从繁琐的工作中解脱出来,降低工作强度,同时还可以对学生的作业进行有效监督,这类软件对教师教学具有重要意义.对文档进行抄袭检测在社会上也具有更广泛的应用.现如今,国外主流文档复制检测系统主要有:Turnitin.,EVE,integriGuard,PaperBin,CopyCatch,WorldCheck和Giatt等商用系统;YAP,SCAM,dSCAM,CHECK,CDSDG,Koala,Shingling等原型检测系统[1].在我国,知网和万方等公司都已经研发出论文检测系统,并已经在全国一些高校和杂志社使用.武汉大学信息管理学院的沈阳教授曾经研发出“ROST反剽窃系统”,该系统主要对网络中网页内容进行查找比对,沈阳教授没有为待测文档提供比对论文库.没有比对论文库的主要缺陷是,网络中的网页内容虽然数量大,但是内容可能不够全面,有很多已经发表的期刊论文、会议论文和学位论文都保存在知网、万方或维普等公司的电子库中,并没有被网友转抄到网页内容中.所以,这种方式查找比对得出的重复度是不准确的.

二、文档特征提取方式

两篇文档间的相似内容的多少,是衡量这两篇文档间是否存在抄袭现象的重要依据.相似内容越多,抄袭嫌疑越大.文档间的特征通过文本块来表示,一个文本块是由一个或多个连续的单元序列组成.根据文本块粒度把文档分解成章节、段落、句子、词语、字等进行单元分解,分解后的每一种单元称之为单元类型.文本块的选择对程序的检测效率有着很大的影响.常用的文本块选取策略有:第一,选取整篇文档作为一个文本块.将整篇文档作为一个文本块进行Hash处理后去与其他文档进行对比,这种选取方法粒度较大,但效率比较高,并且所需的存储空间也非常小.但是由于文本块的选取比较粗糙,对于重度抄袭现象能够较好的识别出来,但是对于轻度抄袭现象的识别效果不佳.第二,选取句子作为文本块.对于文档间部分抄袭现象的检测,需要通过减少文本块长度来实现.将文档按照句子进行划分,通过文档间公共句子的数量来衡量两篇文档间的相似程度.由于句子是由词按一定顺序组合而成,句子比字词包含更多的语义信息,将文档按照句子进行划分相对来说更加合适.但是该方法对于有效句子的界定是个较大的难点,并且对于句子间的部分抄袭现象不能有效的识别.第三,选取单个字作为文本块.这是最细的选取策略.由于使用该方法不用考虑字与字之间的组合关系,因此相对于按句子进行文本块划分来说,检测速率反而会更块.但是单个的字并不代表任何语义信息,因此使用该方法忽略了字与字之间的组合关系,从而存在很高的误判率.第四,选择连续的k个内容不重叠单元作为文本块.对于不重叠的文本块,如果将一个字符作为一个单元,如对于字符串“1234”,选取两个连续的单元作为文本块,那么对文本块进行分解后有“12”和“34”两个文本块.该方法实现起来比较简单,并且仅需较小的存储空间,但是如果对文档中某一个字符做插入或者删除修改后,该字符后面的所有文本块内容将会全部改动.即改动后该字符后面对应的文本块将全部不同,因此该方法存在很高的误判率.第五,选择连续的k个内容部分重叠的单元作为文本块.该方法分解的两个相邻文本块之间存在k-1个重复单元.对于字符串“1234”,选取两个连续的单元作为文本块,那么对文本块分解后将得到如下文本块:“12”,“23”,“34”.该方法对于文档间的部分抄袭现象能够较好的识别,且对文档做部分修改、插入和删除等操作不会对检测结果造成很大的影响,但是该方法需要使用大量的内存空间.一种改进的方法是通过抽样选取文档特征来减少内存空间的消耗.第六,哈希断点法.结合规则四和规则五的优缺点,提出一个改进的Hash断点法.用户首先设定一个value值,然后计算出文档中第一个字的哈希值,把哈希值对value进行取mod运算,如果余数等于0,那么第一个文本块就是第一个字;如果不等于0,就把第二个字的Hash值对value进行mod运算.如果运算结果等于0,那么前两个字就是将选取为第一个文本块;如果还不等于0,则按照上述规则继续进行运算,直到它的Hash值对k进行mod运算等于0为止.当第一个文本块选取后,将第一个文本块选取位置作为一个断点,即上述规则的开始位置,继续按照上述规则对文档文本块进行选取[2].

三、基于句子相似度语句定位的作业抄袭检测

如今国内外主要使用的检测方法主要有两种,分别是基于字符串比较的方法和基于词频统计的方法.基于句子相似度语句定位的作业抄袭检测算法也成为研究热点.在文本块选择方面,文本块选择的粗细程度对系统的检测额速率和检测的精度都有很大的影响.假如文本块选择得太粗,那么将会降低文本块的比较次数,但是对于文档局部修改的敏感度太大,因此很难发现部分抄袭现象;假如文本块选择得太细,对于发现部分抄袭行为效果良好,但却需要消耗大量性能来对文本块进行比较.所以,应该在两者之间找到一个平衡点,从而获取很好的解决方案.在文本复制检测技术方面,判别文档间是否存在剽窃现象,主要通过对两篇文档间的文本块进行对比,通过文本块之间的相似程度来确定文档间的相似程度.

根据轻度抄袭和重度抄袭两大类特点,设计出基于句子相似度抄袭语句定位算法,不仅能够计算作业间的相似程度并且还能定位相似语句位置.经过大量试验研究发现,句子间相似度高于0.7的作业可能是完全抄袭的;句子间相似度处于0.3与0.7之间的作业可能是部分抄袭的;句子间相似度小于0.3的,大多是由于一些常用语句、作业题目或者模板等因素造成的干扰,可以排除抄袭可能.斯坦福大学在1995年研究出 了拷贝检测软件COPS原型系统.该系统以标点符号为界,首先将文档按照一个个句子划分,然后统计两篇文档中相同句子的个数,并将它与两篇文档有的句子个数的比值作为衡量两篇文档之间相似程度的依据.本文在COPS原型系统的算法基础上提出了一种改进算法.算法的设计如下:以文档句子为基本单位,首先将影响检测结果的句子去除,然后将两个句子的最长公共子串长度作为权值从而确定两个句子间的相似度,最后通过计算文档间句子的相似度来确定文档间的相似度.作者经过对大量文档的研究发现,当用标点符号把文档中的所有句子提取出来以后,有一些不代表任何含义的句子,一般来说长度比较小的句子不代表任何含义.因此,可以假定一个阈值n,当句子的长度小于n时,不应对其进行考虑,即不做比较.通过对两个字符串的最长公共子串长度进行计算后,便可通过将计算的结果作为两个字符串的权值.当两个对比字符串之间的权值越大时,则这两个字符串的相似度就越大.需要设定句子权值的阈值,舍弃相似度较低的句子.最后通过计算两篇文章相似句子数量占两篇文章句子少的文章句子数量的比例来判断两篇文章的相似程度.


类似论文

文抄袭检测数学

遵义师范学院本科生毕业论文检查工作方案(2016年试行)为使我院本科毕业论文的检查工作更加科学,规范,进一步提高我院本科生毕业论文&。
更新日期:2024-11-13 浏览量:140295 点赞量:29434

如何检测文是否抄袭数学

天津外国语大学研究生学位论文检测试行办法根据国务院学位委员会《关于在学位授予工作中加强学术道德和学术规范建设的意见 。
更新日期:2024-9-19 浏览量:118037 点赞量:25384

文抄袭检测网站郑州

西安交通大学院处函件 西交教〔2016〕46号 关于2016届毕业设计(论文) 中期检查及后期工作安排的通知。
更新日期:2024-2-19 浏览量:31204 点赞量:7517

文的抄袭率大学生,大学生文抄袭检测系统

一、以下为往届本科论文不及格经验谈,供参考! 正文从序言开始到结论之前的内容字数不满8000,不及格,评阅后无修改机会 格式错误不及格。
更新日期:2024-6-3 浏览量:15383 点赞量:5304

免费文抄袭检测沈阳师范大学

EducationNews2016年第4期(总第55期)本期要目教育部:五项政策助力高校毕业生平稳就业浙江:高校推"学业预警"模式广西:。
更新日期:2024-11-16 浏览量:142886 点赞量:30621

文反抄袭在线检测沈阳

国际贸易原理课程基于网络考核改革试点方案(2016年3月修订)一、考核改革的目的 1 通过本课程考核的改革,深入。
更新日期:2024-10-3 浏览量:17291 点赞量:4795