基于行块统计和机器学习的主题类网页内容识别算法

优采云发布时间: 2021-03-31 01:05

　　感谢大家知乎预先提供的帮助

　　背景：由于Java和Web采集器的联系时间非常短，因此在编码或逻辑上仍然存在许多不精确的地方。在开始时，相应的值是通过前端配置的，并通过计时任务定期进行爬网。后来，需求逐渐增加。例如，类似于头条的自动城市标记功能，在同事的指导下，使用自然语言处理来自动分析新闻内容以获得城市。当然，它也是从开源代码中借用的。我不会在这里提及。新闻分类也类似于使用机器学习贝叶斯分类。。。说了这么多，让我们回到主题。

　　让我们在这里谈论我的实现，标题等东西仍然可以很好地实现，因为标题的功能可以在上追溯，并且基本上可以使用h1，h2徽标来实现，当然如何知道该文本在h1中，h2必须是标题，我已经看到了一种用于分析相似性文本的算法，该算法主要用于文本重复数据删除方向。通过计算h1，h2标题的值并比较网页标题中标签的内容，可以使用A阈值提取新闻正文的标题。当然，如果没有满足条件的h1，h2，则只能处理文本值。

　　类似于新闻发布时间，新闻来源通常可以与正则表达式匹配。

　　然后关键点到了。关于新闻内容的提取，我参考了许多论文和许多材料。这是两种常见的解决方案，

　　1.基于行块分布函数的网页文本提取算法

　　2.基于块统计和机器学习（DOM节点）的主题Web内容识别算法的实现和应用示例

　　我自己的水平受到限制，我无法编写类似的算法和代码。只需复制代码并测试准确率就不高。这两种方法只能放弃。他们有一定的参考价值

　　最后，我使用开源爬虫框架中的代码来实现文章文本提取，而不是广告，有兴趣的学生可以学习它，并通过文章分析此框架的方式记住@我，该函数得以实现，与您分享实施过程

　　最后，我最近观看了文章自动汇总。在使用自然语言api的简单实现下，效果就在那里。这很可能是通过我们常用的提取方案实现的，因此自动汇总在语法上不太令人满意。情况，几乎不能接受

0

2021-03-31

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于行块统计和机器学习的主题类网页内容识别算法

0 个评论

发起人

AI时代内容工厂

基于行块统计和机器学习的主题类网页内容识别算法

0 个评论

发起人

相关问题