抓取网页新闻( 测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)
优采云 发布时间: 2021-11-05 21:07抓取网页新闻(
测试GNE的功能,你只需要在最上面的文本框中粘贴网页源代码)
Gne Online:在线提取一般新闻网页文本
摄影:产品经理
毛脑花和广大粉丝
GNE[1]是我的开源新闻网站通用文本提取器,自发布以来受到了很多同学的好评。
长期以来,GNE 以 Python 包的形式存在。测试GNE的提取效果,需要先用pip安装,再写代码使用。
为了降低测试GNE的成本,让更多的同学了解GNE和测试GNE,我开发了网络版GNE-Gne Online。
打开Gne Online的地址是:,打开后的页面如下图。
测试GNE的功能,只需将网页源代码粘贴到顶部文本框中,点击提取按钮即可:
对于标题、作者、新闻发布时间等可能被误送提取的信息,我们可以通过下面对应的标题XPath、作者、发布时间XPath输入XPath进行定向提取。例如,对于今日头条中的文章:
新闻作者提取错误,此时可以指定XPath://div[@class="article-sub"]/span[1]/text()定向提取,如如下图所示。
通过设置Host输入框,可以拼出网页body中图片为相对路径时的URL。
通过勾选下面的With Body Html复选框,您可以返回body所在区域的网页源代码。
更多GNE使用说明请参考官方文档[2]。
使用 Gne Online,您不再需要提前准备 Python 环境。
参考资料
[1]
GNE:
[2]
官方文档:
王名
存钱给产品经理买房子。