网页新闻抓取(如何精确提取网页中的新闻内容是新闻资讯平台的基础)

优采云 发布时间: 2022-02-01 18:00

  网页新闻抓取(如何精确提取网页中的新闻内容是新闻资讯平台的基础)

  从网页中准确提取新闻内容是新闻信息平台的基础。目前新闻信息平台的大部分内容来自于对其他新闻网站内容的爬取、排序和分类,因此如何准确地从网页中提取新闻非常重要。很重要~

  方法一:《基于行块分布函数的通用网页文本提取》

  它的思想是一个主题网页的详情页(我们这里是新闻)只有一个数据区,你只需要提取这个数据区;找到这个数据区的方法是将网页的内容分成块,一个块是指来自某个区域的数据。从行首到某行尾的区域,例如第n块由第n行、n+1行和n+2行组成,第n+1个块由第n+1行组成, n+2行和n+3行,然后提取每个块中的纯文本,文本中必须收录纯文本最多的块;如果找到了某个区块,就可以利用这部分内容来寻找文字边界,在文字中指出,主题网页的主体中存在大量纯文字,而其他部分则是相对较小。您可以从之前放置块的位置开始,来回走动。找到的纯文本数量直线下降的点是边界;从文本中提取边界信息。这种方法可以准确提取大部分新闻的正文,但正文末尾收录一些杂质信息。而且这种方法只能提取文本,很难提取出与文本相关的非常重要的信息,即标题、出处、时间、以及标题和文本之间的图片。

  方法二:可读性算法

  它的主要思想是通过给一个网页构建一个DOM树,对body节点的子树中的每个后代节点进行评分,得到评分满足要求的节点,这些节点收录了读者想要阅读的内容,并且然后把这些节点排列成一个网页返回。使用算法的Java实现来处理上面的例子新闻,结果和前面的方法差不多。但是,通过DOM树,可以通过另一种方式轻松获取新闻的时间和来源。新闻时间可以通过正则表达式匹配标题和正文之间的内容;可以通过标题和正文之间的内容上的“source”关键字找到来源,并将找到的来源存储起来,在没有“来源”的情况下使用来匹配来源 这部分内容的关键词;终于解决了问题。如果不能为任何一个新闻网页提取新闻的来源和时间,那么它已经可以满足准确提取新闻内容的要求,但是它还有其他问题,比如在大多数情况下会丢失新闻标题之间的图片等信息。文字和文字,有时文字后面还会出现其他不必要的信息(二维码图片、版权信息等)。同样,核心问题是信息丢失。有时文字后面还会出现其他不必要的信息(二维码图片、版权信息等)。同样,核心问题是信息丢失。有时文字后面还会出现其他不必要的信息(二维码图片、版权信息等)。同样,核心问题是信息丢失。

  方法 3:RoadRunner 算法

  该算法试图从同一个模板生成的一组网页中找到一个模板,然后使用该模板解析该模板生成的其他网页。(目前效果不好)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线