电子产业
数字化服务平台

扫码下载
手机洽洽

  • 微信小程序

    让找料更便捷

  • 扫码下载手机洽洽

    随时找料

    即刻洽谈

    点击下载PC版
  • 华强电子网公众号

    电子元器件

    采购信息平台

  • 华强电子网移动端

    生意随身带

    随时随地找货

  • 华强商城公众号

    一站式电子元器件

    采购平台

  • 芯八哥公众号

    半导体行业观察第一站

网页去重的改进算法

来源:-- 作者:-- 浏览:465

标签:

摘要: 摘 要: 针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。 关键词: 网页去重; 特征提取; 特征表示 随着互联网的高速发展,Web已经成为最大的信息来源。但是如

摘  要: 针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。
关键词: 网页去重; 特征提取; 特征表示

    随着互联网的高速发展,Web已经成为最大的信息来源。但是如何获取这些Web信息为我所用则是大家面临的共同问题。网页去重是Web网页信息处理的重要环节,只有在对网页的去重基础上才可以准确处理网页中的信息。本文介绍网页的去重算法。
    提取出来的网页,有些内容可能很相似,对于这些内容相似的网页没必要保存。针对系统中的人才招聘网页更是必要:一个公司的招聘信息很可能会在数十家招聘网站以及自己公司主页同时发布,所以有必要对这些网页去重。

 对于网页,ti就表示特征词条,wi(d)就是文本d中ti的权值。用这个特征矢量来表示网页文本。在网页表示中,对任一特征而言有两个因素影响特征的权值。一是词在HTML文档中出现的词频,另一个是该词在该文档中出现的位置。词频指的是某一词条在文档中出现的频率, 频率越高(当然不包括那些停用词)则说明该词越重要,越能代表该网页的内容。对于网页的主题包含在<title>和</title>之间的词组比在<body>和</body>之间的词组更具有代表性。因此本文提出了一种把该词出现的频率以及该词出现的位置相结合的权重计算方法,能够更有效地表示网页。公式如下:



 (3) 联合特征提取方法
 虽然X2统计量法是目前常用的特征提取方法之一,但该方法仍存在一些缺点,如它提高了在指定类中
  
    在网络训练过程开始时,定义获胜节点的邻域节点是为了能使二维输出平面上相邻输出节点对相近的输入模式类做出特别反应。假设本次获胜节点为Nj,它在t时刻的邻域节点用NEj表示,NEj(t)是包含以Nj中心而距离不超过某一半径的所有节点。随着训练过程的进行,NEj(t)的半径逐渐减小,最后只包含获胜节点Nj本身,也就是说在训练的起始阶段不仅对获胜节点做权值调整,而且也对其较大范围内的几何邻节点做相应的调整,随着训练过程的继续进行,与输出节点相连的权向量也越来越接近其代表的模式类。这时,在对获胜节点的权值进行比较细微的调整时,只对其几何邻节点比较近的节点进行相应的调整,直到最后只对获胜节点本身做细微的调整。在训练过程结束后,几何上相近的输出节点所连接的权向量既有联系又有区别,这样,保证了对某一类输入模式获胜节点能够做出最大“响应”,而相邻节点做出“较大”响应。几何上相邻节点代表特征上相近的模式类别。
 自组织特征映射学习过程包括描述最佳匹配神经元的选择和描述权矢量的自适应变化过程两部分。SOM输出层通常由两维m×m的网格节点组成,从输入向量到网络输出层的每个节点j的权值向量定义为w,w和xi的维数是相同的,设为d,影射节点的数量从数十个到数千个决定SOM正确性和概化能力。

4 实验结果
 采用以上介绍的算法,对一批数量在50~100之间的网页集合进行去重处理,集合中包含了一与此内容完全相同或部分相同的网页,将实验结果与人工判别的结果进了比较,发现重复网页的正确率达到95%以上,出现错误的判断的是由于网页转载时出现错码等现象,有的是两个重复网页的段落排列差异太大。测试结果如图1所示。


    本文将SOM的思想和方法引入中文Web文档的聚类问题.探索向用户提供高质量的网页信息具有很强的理论意义和实际价值。但是,这种方法的不足之处是当网络的连接过多、节点数目庞大时其计算量大,需要较长的学习时间。所以对于上述问题,笔者正在研究通过网络剪枝技术,在不增加聚类错误的前提下,剪去多余的连接和节点,降低特征向量空间的维数从而减少计算工作量。
参考文献
[1] LINSKER R. An application of the principle of maximum  information preservation to linear systems[Z]. Adv. Neural Inform. Process Systems, 1989,1.
[2] JUTTEN C, HERAULT J. Blind separation of sources,Part1:An adaptive algorithm based on neuromimetic architecture [J]. Signal Processing, 1991,24:10.
[3] COMMON P. Independent component analysis,a new concept[J]. Signal Processing, 1994,36:287-314.
[4] TONAZZINI A, BEDINI L, KURUOGLU E E. Blind separation of auto-correlated images from noisy images using  mrf models,. in 4th Int. Symp. on ICA and Blind Source Separation, Nara, Japan, 2003.
[5] SHULMAN D, HERVE J Y. Regularization of discontinuous  flow fields. in Proc. Workshop on Visual Motion, 1989:81-86.
[6] BOUMAN C, SAUER K. A generalised gaussian image model for edge-preserving MAP estimation,. IEEE Trans. Image Processing, vol. 2, pp. 296-310,1993.2704.
 

型号 厂商 价格
EPCOS 爱普科斯 /
STM32F103RCT6 ST ¥461.23
STM32F103C8T6 ST ¥84
STM32F103VET6 ST ¥426.57
STM32F103RET6 ST ¥780.82
STM8S003F3P6 ST ¥10.62
STM32F103VCT6 ST ¥275.84
STM32F103CBT6 ST ¥130.66
STM32F030C8T6 ST ¥18.11
N76E003AT20 NUVOTON ¥9.67