基于组合特点的网页主题块辨识算法
优采云 发布时间: 2020-08-22 07:00基于组合特点的网页主题块辨识算法
【摘要】:在现今的互联网时代,Web是信息的重要来源,网页则是展示信息的重要媒介。网页传递着各类信息,但是其中有大量噪声信息严重影响了 Web信息的自动化挖掘和采集。如何确切的辨识出网页的主题信息成为了计算机科学的研究热点。本文对各类Web页面主题信息辨识的技术进行了剖析和总结,针对仅借助视觉特点或文本特点来辨识Web页面主题信息算法的不足,提出了一种基于组合特点的主题块辨识算法,实验证明本算法有效的提升了网页主题信息辨识的准确率和稳定性。本文的主要研究内容和贡献如下:1)实现并改进了 VIPS算法。改进了网页分块规则,对网页块规格阀值采用了动态调整的方法来调整分块细度,使得分块后的网页块语义愈发完整。2)借鉴BM25算法的思想,提出了估算网页块内容与主题相关性的算法模型BBM25。BBM25以网页块为基本单位,从关键词的权重、网页块中关键词的词频、网页块的文本内容厚度等几个方面来考虑。3)提出了基于组合特点的主题块辨识算法。对网页分块后,本文首先借助SVM按照网页块的视觉特点预测网页块是否为主题块,然后借助BBM25算法估算每位网页块内容与主题的相关性权重值,将权重值与找寻的最佳阀值进行比较进而判定网页块是否为主题块,最后将这两种方法相结合,综合利用网页块的视觉特点和文本特点来判定其是否为主题块。通过实验,本文将基于组合特点的主题块辨识算法和基于视觉特点、基于文本特点的主题块辨识算法进行了对比,验证了本文提出的基于组合特点辨识主题块的算法的准确性和稳定性。