基于Spark的抄袭检测云计算框架

摘 要:抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程.采用分布式计算是是提高检测效率的有有效手段之一.本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器ApacheMesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群.测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升.

关 键 词:抄袭检测;云计算;Spark

中图分类号:TP18

随着互联网的高速发展,包括搜索引擎、文献资源库、翻译软件的大量涌现,使得诸如学术、学位论文、著作、项目申请书、项目结题报告等文本的抄袭剽窃更易于实现,从而,使得快速准确的判定文本的抄袭剽窃变得尤为重要,已成为一个迫切需要解决的问题.

伴随着云计算技术的快速兴起和大数据时代的来临,抄袭检测将数据处理转移到云计算上去是一种必然的趋势.因此,本文抄袭检测采用了云计算框架MapReduce算法思想,把本来由单个主机单独进行的对海量数据检索的过程,变成由若干台主机分别进行的对部分并行进行处理,并在每个主机完成后再统一收回检测结果.相比传统集群,基于MapReduce抄袭检测云计算框架复杂度较低,成本减少,具有良好的可伸缩性.SparkMapReduce是MapReduce模型的实现之一,它提供的框架自动执行了任务的分解、发送、执行、归并、容错工作,免去了二次开发和专用的分布式调度系统.此外Spark相比Hadooop框架,它能够提供支持数据内存驻留功能,能够显著提高需要迭代计算或者反复读取数据的计算速度.实验结果表明,基于Spark的抄袭检测云计算框架能显著提高检测速度.


1Spark分布式框架简介

Spark是一个基于内存计算的开源的集群计算系统,虽然Spark与Hadoop有相似之处,但它提供了具有有用差异的一个新的集群计算框架.Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.HadoopMapReduce框架反复从磁盘读取数据,效率低下.Spark旨在解决上述HadoopMapReduce反复读写文件系统从而效率低下的问题.Spark通过构建弹性分布式数据集RDD结构,支持数据内存驻留,RDD是分布在一组节点中的只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.可见,通过引入RDD,MapReduce过程无需将处理结果写回HDFS文件系统,避免多次访问磁盘,大大提高了迭代算法的运行效率.

2基于Spark的抄袭检测框架

本文设计的抄袭检测框架是在Spark分布式系统的基础上,加入了工具组件层,主要内容是一些针对于抄袭检测的自然语言处理工具包,为抄袭检测提供基础技术和工具,在自然语言处理工具包和Spark分布式系统的支持下提供抄袭检测云服务,框架图如下图所示:

图1

框架由以下几个部分组成:

2.1弹性分布式数据集(RDD):RDD是分布在一组节点中的只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.

2.2Mesos集群管理器:Spark支持单节点集群或多节点集群.Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台.该设置充许Spark与Hadoop共存于节点的一个共享池中.

2.3Yarn:MapReduce在Hadoop0.23时已经经历了一次大规模更新,新版本的MapReduce2.0被称为YARN,YARN根本上解决旧MapReduce框架的性能瓶颈,YARN是一个真正的Hadoop资源管理器,允许多个应用程序同时、高效地运行在一个的集群上.

2.4MLlib:是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器.MLlib目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法.

2.5工具组件层:工具组件层整合了自然语言大数据采集、处理需要使用的基础技术和工具,包括网络爬虫、中文分词、词性标注、可视化等.

3系统测试

通过部署Spark平台与传统的Hadoop平台进行对比,数据量级为10.6GB,在两个平台上进行同一篇文章的抄袭检测,Spark平台的速度比传统的Hadoop平台提升了10倍左右.实验表明,基于Spark的抄袭检测框架在大数据处理速度上具有明显的优势.

4结束语

本文设计了一个基于Spark框架的抄袭检测计算框架,下一步工作将在引框架基础上研发基于互联网的抄袭检测云服务,充分发挥Spark对于迭代算法数据内存驻留支持的特性,提高检测速度.

类似论文

文抄袭检测数学

遵义师范学院本科生毕业论文检查工作方案(2016年试行)为使我院本科毕业论文的检查工作更加科学,规范,进一步提高我院本科生毕业论文&。
更新日期:2024-11-13 浏览量:140471 点赞量:29500

文抄袭检测网站郑州

西安交通大学院处函件 西交教〔2016〕46号 关于2016届毕业设计(论文) 中期检查及后期工作安排的通知。
更新日期:2024-2-19 浏览量:31380 点赞量:7583

文的抄袭率大学生,大学生文抄袭检测系统

一、以下为往届本科论文不及格经验谈,供参考! 正文从序言开始到结论之前的内容字数不满8000,不及格,评阅后无修改机会 格式错误不及格。
更新日期:2024-6-3 浏览量:15559 点赞量:5370

免费文抄袭检测沈阳师范大学

EducationNews2016年第4期(总第55期)本期要目教育部:五项政策助力高校毕业生平稳就业浙江:高校推"学业预警"模式广西:。
更新日期:2024-11-16 浏览量:143062 点赞量:30687

扩展卡尔曼体系下的SLAM算法计算框架

摘 要:扩展卡尔曼体系下的SLAM算法是指SLAM算法中含有状态预测过程和状态更新过程 为了便于理解扩展卡尔曼体系下的SLAM算法计算。
更新日期:2024-8-26 浏览量:108698 点赞量:24089