网页新闻抓取(测试GNE的原因和解决方法,你get到了吗?)

优采云 发布时间: 2022-02-06 21:11

  网页新闻抓取(测试GNE的原因和解决方法,你get到了吗?)

  Gne是如何提取新闻网页的,相信很多没有经验的人对此都束手无策。为此,本文总结了问题的原因和解决方法。通过这个文章希望你能解决这个问题。

  GNE[1] 是我开源的新闻网站 的通用提取器。自发布以来,受到了很多学生的好评。

  长期以来,GNE 以 Python 包的形式存在。测试GNE的提取效果,需要先使用pip安装,然后编写代码使用。

  为了降低测试GNE的成本,让更多的同学了解GNE,测试GNE,我开发了GNE的网页版——Gne Online。

  打开Gne Online的地址是:,打开后的页面如下图所示。

  

  要测试 GNE 的功能,您只需将网页的源代码粘贴到顶部文本框中,然后单击提取按钮:

  

  对于标题、作者、新闻发布时间可能发错的情况,我们可以通过下面对应的Title XPath、Author、Publish Time XPath输入XPath定向提取。比如今日头条的文章:

  

  新闻的作者在提取新闻时犯了一个错误。这时候可以指定 XPath://div[@class="article-sub"]/span[1]/text() 来定向提取,如下图所示。

  

  通过设置 Host 输入框,可以在网页正文中的图片为相对路径时拼写 URL。

  通过勾选下方的With Body Html复选框,可以返回body所在区域的网页源代码。

  看完以上内容,你是否掌握了Gne是如何提取新闻网页的呢?如果您想学习更多技能或想了解更多相关内容,请关注易宿云行业资讯频道,感谢您的阅读!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线