基于行块统计和机器学习的主题类网页内容识别算法
优采云 发布时间: 2021-03-31 01:05基于行块统计和机器学习的主题类网页内容识别算法
感谢大家知乎预先提供的帮助
背景:由于Java和Web采集器的联系时间非常短,因此在编码或逻辑上仍然存在许多不精确的地方。在开始时,相应的值是通过前端配置的,并通过计时任务定期进行爬网。后来,需求逐渐增加。例如,类似于头条的自动城市标记功能,在同事的指导下,使用自然语言处理来自动分析新闻内容以获得城市。当然,它也是从开源代码中借用的。我不会在这里提及。新闻分类也类似于使用机器学习贝叶斯分类。 。 。说了这么多,让我们回到主题。
让我们在这里谈论我的实现,标题等东西仍然可以很好地实现,因为标题的功能可以在上追溯,并且基本上可以使用h1,h2徽标来实现,当然如何知道该文本在h1中,h2必须是标题,我已经看到了一种用于分析相似性文本的算法,该算法主要用于文本重复数据删除方向。通过计算h1,h2标题的值并比较网页标题中标签的内容,可以使用A阈值提取新闻正文的标题。当然,如果没有满足条件的h1,h2,则只能处理文本值。
类似于新闻发布时间,新闻来源通常可以与正则表达式匹配。
然后关键点到了。关于新闻内容的提取,我参考了许多论文和许多材料。这是两种常见的解决方案,
1.基于行块分布函数的网页文本提取算法
2.基于块统计和机器学习(DOM节点)的主题Web内容识别算法的实现和应用示例
我自己的水平受到限制,我无法编写类似的算法和代码。只需复制代码并测试准确率就不高。这两种方法只能放弃。他们有一定的参考价值
最后,我使用开源爬虫框架中的代码来实现文章文本提取,而不是广告,有兴趣的学生可以学习它,并通过文章分析此框架的方式记住@我,该函数得以实现,与您分享实施过程
最后,我最近观看了文章自动汇总。在使用自然语言api的简单实现下,效果就在那里。这很可能是通过我们常用的提取方案实现的,因此自动汇总在语法上不太令人满意。情况,几乎不能接受