基于主题词语义分词与距离的去重算法

【摘 要】对主题网页去重技术进行了综述,结合已有算法的缺点,提出了一种基于主题词语义与距离的网页去重算法.该方法通过对用户输入的关 键 词进行语义标注后分词检索,计算分词子集在网页文本中的距离,来判断网页与主题的相关度以及网页之间的相似度.同时避开了网页文本向量空间维数大的不足,在一定程度上考虑到了网页的语义信息.


【关 键 词】网页去重语义分词与距离去重

目前大多数搜索引擎采用基于关 键 词的方法返回用户所需信息,这些信息的冗余度通常很高,很多不相关的信息没有进行有效的组织.因此人们迫切地希望拥有一种方法,能够自动的将与特定主题相关的信息分类汇总后,供用户查阅.主题搜索引擎的出现使得用户能够对特定主题相关信息的进行获取,然而在信息采集过程中如何对搜索回来的页面进行分类,在下一次信息采集的过程中让爬虫主动发现主题相关页面,并去除相关页面中的重复或近似重复的页面成为搜索引擎的研究热点之一.

1网页去重技术综述

搜索引擎的工作原理主要分为三个部分:网页抓取,网页处理,提供检索服务.网页去重是搜索引擎预处理技术的关键部分,主要是由于web上存在大量的重复信息,有统计信息表明,网页的重复率平均为4,即用户通过一个URL在互联网上看到一篇相似网页的同时,平均还有三个URL不同的网页给出的内容相同或近似相同.因此为了提高搜索引擎的工作效率,网页去重在整个搜索引擎的工作中是必不可少的.

国外对于网页去重的研究最初主要是针对大型文件系统的近似镜像文档检测算法上的研究,后来这些算法又被拓展应用到数字化图书馆项目以及搜索引擎系统中.美国Arizona大学的研究人员对于大型文件系统中的相似文件采用了计算文档的重叠程度的方法来进行实现.国内,网页去重重点还是对网页去重的算法进行研究.大连理工大学韩冰主要研究了大规模的网页文本去重和科技论文抄袭检测.江苏大学吕霞提出了一种基于关 键 词和特征码的网页去重K-CC算法,在分析国内外目前比较通用的几种去重技术的基础上,提出了一种基于关 键 词和特征码的网页去重K-CC算法.

2基于主题词语义分词与距离的网页去重算法的背景

传统的特征码实现的精确匹配完全可以与先进的检索系统联系起来,其去重效率比较高,是一种去重的好方法.但是该方法的缺点是:

(1)特征码所实现的是精确匹配,并不能有效的检测出

类似论文

手语文本自动分词的设计与实现

摘 要:手语是我国听障人重要交流之一,手语文本自动分词系统对听障人的政治、文化、生活的发展有着重要意义 研发了手语。
更新日期:2024-2-21 浏览量:33580 点赞量:8602

中文分词技术

摘要:分词技术做为WEB文本摘 要 的一个重要的技术环节,在WEB文本摘 要 技术中占有很重要的地位,本文从分词方法及分词算。
更新日期:2024-2-14 浏览量:29534 点赞量:6838

医药文献中文分词

摘 要:为提高医药文献中文分词的准确率,根据医药文献的特点,研究了中文分词的算法 首先介绍了基于。
更新日期:2024-1-2 浏览量:5490 点赞量:2188

近邻匹配算法实现中文分词

摘 要计算机进行中文分词的处理过程,最重要的就是分词算法 现有的中文分词算法可分为三大类:࣌。
更新日期:2024-2-24 浏览量:33055 点赞量:8233

中文搜索引擎中的中文分词应用

摘 要网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题 而在搜索引擎。
更新日期:2024-9-15 浏览量:118988 点赞量:25974

面向中文全文索引的中文分词策略

摘 要:中文分词是中文信息化处理的基础环节 在中文全文索引中,中文分词更起着举足轻重的作用 该文首先比。
更新日期:2024-11-23 浏览量:144766 点赞量:31275

财务文档分词文档相关性

摘 要:搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存&。
更新日期:2024-12-5 浏览量:20477 点赞量:5558