网页新闻抓取( 测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)

优采云 发布时间: 2022-02-18 11:10

  网页新闻抓取(

测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)

  Gne Online:一般新闻网页文本的在线提取

  

  摄影:产品经理

  毛脑花和广粉

  GNE[1]是我的开源新闻网站通用文本提取器,自发布以来受到了很多同学的好评。

  长期以来,GNE 以 Python 包的形式存在。测试GNE的提取效果,需要先使用pip安装,然后编写代码使用。

  为了降低测试GNE的成本,让更多的同学了解GNE,测试GNE,我开发了GNE的网页版——Gne Online。

  Gne Online的打开地址是:,打开后的页面如下图所示。

  

  要测试GNE的功能,只需将网页的源代码粘贴到顶部的文本框中,然后点击提取按钮:

  

  对于标题、作者、新闻发布时间的情况,可能会发送不正确的提取,我们可以通过下面对应的Title XPath、Author、Publish Time XPath输入XPath定向提取。比如今日头条的文章:

  

  新闻的作者在提取它时犯了一个错误。这时候可以指定XPath://div[@class="article-sub"]/span[1]/text()来定向提取,如下图所示。

  

  通过设置Host输入框,可以在网页正文中的图片为相对路径时拼写URL。

  勾选下方的With Body Html复选框,即可返回body所在区域的网页源代码。

  更多GNE使用说明请参考官方文档[2]。

  使用 Gne Online,您不再需要提前准备 Python 环境。

  参考文献

  [1]

  GNE:

  [2]

  官方文档:

  

  国王的名字

  为产品经理省钱买房。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线