抓取网页新闻( 测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)

优采云 发布时间: 2021-11-05 21:07

  抓取网页新闻(

测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)

  Gne Online:在线提取一般新闻网页文本

  

  摄影:产品经理

  毛脑花和广大粉丝

  GNE[1]是我的开源新闻网站通用文本提取器,自发布以来受到了很多同学的好评。

  长期以来,GNE 以 Python 包的形式存在。测试GNE的提取效果,需要先用pip安装,再写代码使用。

  为了降低测试GNE的成本,让更多的同学了解GNE和测试GNE,我开发了网络版GNE-Gne Online。

  打开Gne Online的地址是:,打开后的页面如下图。

  

  测试GNE的功能,只需将网页源代码粘贴到顶部文本框中,点击提取按钮即可:

  

  对于标题、作者、新闻发布时间等可能被误送提取的信息,我们可以通过下面对应的标题XPath、作者、发布时间XPath输入XPath进行定向提取。例如,对于今日头条中的文章:

  

  新闻作者提取错误,此时可以指定XPath://div[@class="article-sub"]/span[1]/text()定向提取,如如下图所示。

  

  通过设置Host输入框,可以拼出网页body中图片为相对路径时的URL。

  通过勾选下面的With Body Html复选框,您可以返回body所在区域的网页源代码。

  更多GNE使用说明请参考官方文档[2]。

  使用 Gne Online,您不再需要提前准备 Python 环境。

  参考资料

  [1]

  GNE:

  [2]

  官方文档:

  

  王名

  存钱给产品经理买房子。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线