网页新闻抓取(测试GNE的原因和解决方法，你get到了吗？)

优采云发布时间: 2022-02-06 21:11

　　Gne是如何提取新闻网页的，相信很多没有经验的人对此都束手无策。为此，本文总结了问题的原因和解决方法。通过这个文章希望你能解决这个问题。

　　GNE[1] 是我开源的新闻网站的通用提取器。自发布以来，受到了很多学生的好评。

　　长期以来，GNE 以 Python 包的形式存在。测试GNE的提取效果，需要先使用pip安装，然后编写代码使用。

　　为了降低测试GNE的成本，让更多的同学了解GNE，测试GNE，我开发了GNE的网页版——Gne Online。

　　打开Gne Online的地址是：，打开后的页面如下图所示。

　　要测试 GNE 的功能，您只需将网页的源代码粘贴到顶部文本框中，然后单击提取按钮：

　　对于标题、作者、新闻发布时间可能发错的情况，我们可以通过下面对应的Title XPath、Author、Publish Time XPath输入XPath定向提取。比如今日头条的文章：

　　新闻的作者在提取新闻时犯了一个错误。这时候可以指定 XPath://div[@class="article-sub"]/span[1]/text() 来定向提取，如下图所示。

　　通过设置 Host 输入框，可以在网页正文中的图片为相对路径时拼写 URL。

　　通过勾选下方的With Body Html复选框，可以返回body所在区域的网页源代码。

　　看完以上内容，你是否掌握了Gne是如何提取新闻网页的呢？如果您想学习更多技能或想了解更多相关内容，请关注易宿云行业资讯频道，感谢您的阅读！

0

2022-02-06

网页新闻抓取

0 个评论

要回复文章请先登录或注册