第一個問題和已有問題重複:如何识别並提取网页正文?

优采云 发布时间: 2021-04-30 07:25

  第一個問題和已有問題重複:如何识别並提取网页正文?

  第一个问题与现有问题相同:如何识别和提取网页正文?

  我写的第二个问题是一个简单的分词算法,顺便说一下,提取频率较高的词作为关键词。即使是一个非常简单的算法,也适用于大多数网页。

  有很多现成的分词算法,您可以搜索;

  有很多现成的关键词提取,可以搜索。 。

  第二个问题似乎也与现有问题重复。

  我之前在php中编写了一个采集插件。这称为网页正文提取。

  算法大致如下:

  1、将网页分成许多DOM块。

  2、分解的dom块。您必须使用某些标准来丢弃和排除。例如,在某些dom禁食中,有很多链接,这些链接通常是列表。可以丢弃。还要计算文本密度的比率(text / html)。例如,标签的百分比,例如(span,p,a,font)。等一下,经过多次过滤后,最终会剩下几个dom块。然后根据某些规则过滤掉。正确率会比较高。

  最重要的值也可以用作参考。我在纸上看到了文字,并在段落中使用了句号来对其进行判断。

  如果一段大段文字中收录很多句号,则表示此dom快可能是因为内容很快。

  我以前写过Java版的采集器(Gworm),但我有一个卑鄙的见解。如果仅提供一个URL,仍然很难以智能方式提取网页的文章部分(这并非不可能,只需使用统计概率的方法就不能100%正确)。因此,我以前的计划是使用css选择器提取内容,而不是自己手写正则表达式。一个css样式名称网站通常非常稳定,因此只需要网站的所有文章提取规则,以及获得文章标记的第二个问题,也可以通过以下方式轻松解决使用css选择器。由于该主题使用python爬行,因此我不知道python必须提供哪个库来提供DOM上的CSS选择功能,但我相信一定有,与我使用的Java版本的CSS选择器相对应的是Jsoup。

  更新:我只是用Google搜索“ python CSS选择器”和很多结果。看看这篇文章文章。

  在python中有pyquery

  php有phpquery

  使用jquery语法进行处理非常方便

  python中有一个scrapy框架,非常好,还有scrapinghub云平台,可以节省很多工作;

  对于抓取标签,它涉及分类和聚类算法。这里有很多选择

  如果数据量不大,请使用可读性api来避免麻烦。

  建议不要使用常规规则进行html解析,了解lxml,然后在chrome浏览器的开发模式下,可以直接在lxml中复制与DOM节点相对应的xpath,这样可以节省很多时间,和lxml解析html,提高xml的性能

  

  免责声明:本文原创已发布在php中文网站上。请注明转载来源。谢谢您的尊重!如有任何疑问,请与我们联系

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线