js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库 )
优采云 发布时间: 2021-12-09 21:04js提取指定网站内容(目录本篇博客又双叒叕为各位分享分享Python库
)
内容
本篇博客将为大家分享一个Python库:GeneralNewsExtractor (GNE),这是一个通用的新闻网站文本提取模块。输入一个新闻页面的HTML,输出正文内容、标题、作者、发布时间、正文中图片的地址、正文所在标签的源代码。 GNE对今日头条、网易新闻、有民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百条中文新闻网站的提取非常有效,准确率几乎可以达到100%。 .
需要明白:GeneralNewsExtractor(GNE)不是爬虫,是为了避免不必要的风险。因此,本项目的输入是HTML源代码,输出是字典。请使用适当的方法自行获取目标网站 HTML。
1、安装模块
GeneralNewsExtractor 模块的安装说明如下:
pip install gne
安装成功效果如下:
2、提取网页内容
这次打算提取最新时事,选择网易新闻,文章如下图:
右键查看本页源码文章,如下图:
复制源码 接下来,5行代码提取新闻内容,如下图:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html)
print(result)
效果如下:
如果标题自动提取失败,可以指定XPath,代码如下:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html, title_xpath='//h5/text()')
print(result)