js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库 )

优采云发布时间: 2021-12-09 21:04

　　js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库

)

　　内容

　　本篇博客将为大家分享一个Python库：GeneralNewsExtractor (GNE)，这是一个通用的新闻网站文本提取模块。输入一个新闻页面的HTML，输出正文内容、标题、作者、发布时间、正文中图片的地址、正文所在标签的源代码。 GNE对今日头条、网易新闻、有民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百条中文新闻网站的提取非常有效，准确率几乎可以达到100%。 .

　　需要明白：GeneralNewsExtractor（GNE）不是爬虫，是为了避免不必要的风险。因此，本项目的输入是HTML源代码，输出是字典。请使用适当的方法自行获取目标网站 HTML。

　　1、安装模块

　　GeneralNewsExtractor 模块的安装说明如下：

　　pip install gne

　　安装成功效果如下：

　　2、提取网页内容

　　这次打算提取最新时事，选择网易新闻，文章如下图：

　　右键查看本页源码文章，如下图：

　　复制源码接下来，5行代码提取新闻内容，如下图：

　　from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html)

print(result)

　　效果如下：

　　如果标题自动提取失败，可以指定XPath，代码如下：

　　from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()

html = '你的目标网页正文'

result = extractor.extract(html, title_xpath='//h5/text()')

print(result)

0

2021-12-09

js提取指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库 )

0 个评论

发起人

AI时代内容工厂

js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库 )

0 个评论

发起人

相关问题