网页新闻抓取(如何精确提取网页中的新闻内容是新闻资讯平台的基础)

优采云发布时间: 2022-02-01 18:00

　　从网页中准确提取新闻内容是新闻信息平台的基础。目前新闻信息平台的大部分内容来自于对其他新闻网站内容的爬取、排序和分类，因此如何准确地从网页中提取新闻非常重要。很重要~

　　方法一：《基于行块分布函数的通用网页文本提取》

　　它的思想是一个主题网页的详情页（我们这里是新闻）只有一个数据区，你只需要提取这个数据区；找到这个数据区的方法是将网页的内容分成块，一个块是指来自某个区域的数据。从行首到某行尾的区域，例如第n块由第n行、n+1行和n+2行组成，第n+1个块由第n+1行组成， n+2行和n+3行，然后提取每个块中的纯文本，文本中必须收录纯文本最多的块；如果找到了某个区块，就可以利用这部分内容来寻找文字边界，在文字中指出，主题网页的主体中存在大量纯文字，而其他部分则是相对较小。您可以从之前放置块的位置开始，来回走动。找到的纯文本数量直线下降的点是边界；从文本中提取边界信息。这种方法可以准确提取大部分新闻的正文，但正文末尾收录一些杂质信息。而且这种方法只能提取文本，很难提取出与文本相关的非常重要的信息，即标题、出处、时间、以及标题和文本之间的图片。

　　方法二：可读性算法

　　它的主要思想是通过给一个网页构建一个DOM树，对body节点的子树中的每个后代节点进行评分，得到评分满足要求的节点，这些节点收录了读者想要阅读的内容，并且然后把这些节点排列成一个网页返回。使用算法的Java实现来处理上面的例子新闻，结果和前面的方法差不多。但是，通过DOM树，可以通过另一种方式轻松获取新闻的时间和来源。新闻时间可以通过正则表达式匹配标题和正文之间的内容；可以通过标题和正文之间的内容上的“source”关键字找到来源，并将找到的来源存储起来，在没有“来源”的情况下使用来匹配来源这部分内容的关键词；终于解决了问题。如果不能为任何一个新闻网页提取新闻的来源和时间，那么它已经可以满足准确提取新闻内容的要求，但是它还有其他问题，比如在大多数情况下会丢失新闻标题之间的图片等信息。文字和文字，有时文字后面还会出现其他不必要的信息（二维码图片、版权信息等）。同样，核心问题是信息丢失。有时文字后面还会出现其他不必要的信息（二维码图片、版权信息等）。同样，核心问题是信息丢失。有时文字后面还会出现其他不必要的信息（二维码图片、版权信息等）。同样，核心问题是信息丢失。

　　方法 3：RoadRunner 算法

　　该算法试图从同一个模板生成的一组网页中找到一个模板，然后使用该模板解析该模板生成的其他网页。（目前效果不好）

0

2022-02-01

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(如何精确提取网页中的新闻内容是新闻资讯平台的基础)

0 个评论

发起人

AI时代内容工厂

网页新闻抓取(如何精确提取网页中的新闻内容是新闻资讯平台的基础)

0 个评论

发起人

相关问题