第一個問題和已有問題重複：如何识别並提取网页正文？

优采云发布时间: 2021-04-30 07:25

　　第一个问题与现有问题相同：如何识别和提取网页正文？

　　我写的第二个问题是一个简单的分词算法，顺便说一下，提取频率较高的词作为关键词。即使是一个非常简单的算法，也适用于大多数网页。

　　有很多现成的分词算法，您可以搜索；

　　有很多现成的关键词提取，可以搜索。。

　　第二个问题似乎也与现有问题重复。

　　我之前在php中编写了一个采集插件。这称为网页正文提取。

　　算法大致如下：

　　1、将网页分成许多DOM块。

　　2、分解的dom块。您必须使用某些标准来丢弃和排除。例如，在某些dom禁食中，有很多链接，这些链接通常是列表。可以丢弃。还要计算文本密度的比率（text / html）。例如，标签的百分比，例如（span，p，a，font）。等一下，经过多次过滤后，最终会剩下几个dom块。然后根据某些规则过滤掉。正确率会比较高。

　　最重要的值也可以用作参考。我在纸上看到了文字，并在段落中使用了句号来对其进行判断。

　　如果一段大段文字中收录很多句号，则表示此dom快可能是因为内容很快。

　　我以前写过Java版的采集器（Gworm），但我有一个卑鄙的见解。如果仅提供一个URL，仍然很难以智能方式提取网页的文章部分（这并非不可能，只需使用统计概率的方法就不能100％正确）。因此，我以前的计划是使用css选择器提取内容，而不是自己手写正则表达式。一个css样式名称网站通常非常稳定，因此只需要网站的所有文章提取规则，以及获得文章标记的第二个问题，也可以通过以下方式轻松解决使用css选择器。由于该主题使用python爬行，因此我不知道python必须提供哪个库来提供DOM上的CSS选择功能，但我相信一定有，与我使用的Java版本的CSS选择器相对应的是Jsoup。

　　更新：我只是用Google搜索“ python CSS选择器”和很多结果。看看这篇文章文章。

　　在python中有pyquery

　　php有phpquery

　　使用jquery语法进行处理非常方便

　　python中有一个scrapy框架，非常好，还有scrapinghub云平台，可以节省很多工作；

　　对于抓取标签，它涉及分类和聚类算法。这里有很多选择

　　如果数据量不大，请使用可读性api来避免麻烦。

　　建议不要使用常规规则进行html解析，了解lxml，然后在chrome浏览器的开发模式下，可以直接在lxml中复制与DOM节点相对应的xpath，这样可以节省很多时间，和lxml解析html，提高xml的性能

　　免责声明：本文原创已发布在php中文网站上。请注明转载来源。谢谢您的尊重！如有任何疑问，请与我们联系

0

2021-04-30

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

第一個問題和已有問題重複：如何识别並提取网页正文？

0 个评论

发起人