抓取网页新闻(Python爬虫异步新闻爬虫新闻聚合网页下载)

优采云发布时间: 2022-04-02 07:06

　　这个实际的例子是搭建一个大型的异步新闻爬虫，但是需要几个步骤，从简单到复杂，一步一步搭建这个Python爬虫

　　本教程所有代码均使用 Python 3.6 实现，无论 Python 2，强烈建议您使用 Python 3

　　要爬取新闻，首先要有一个新闻源，也就是爬取的目标网站。国内新闻网站，从中央到地方，从综合到垂直行业，新闻上千条网站。百度新闻()收录约2000多。那么让我们从百度新闻开始吧。

　　打开百度新闻的网站首页：

　　我们可以看到这是一个新闻聚合页面，里面列出了很多新闻头条及其原创链接。如图所示：

　　我们的目标是从这里提取这些新闻的链接并下载它们。过程比较简单：

　　按照这个简单的流程，我们先实现下面的简单代码：

　　#!/usr/bin/env python3

　　# 作者：veelion

　　重新*敏*感*词*

　　*敏*感*词*时间

　　导入请求

　　导入 tldextract

　　def save_to_db(url, html):

　　# 将网页保存到数据库中，我们暂时替换为打印相关信息

　　print('%s : %s' % (url, len(html)))

　　定义爬行（）：

　　#1\。下载百度新闻

　　hub_url = '#39;

　　res = requests.get(hub_url)

　　html = res.text

　　#2\。提取新闻链接

　　## 2.1 提取所有带有'href'的链接

　　链接 = re.findall(r'href=[\'"]?(.*?)[\'"\s]', html)

　　print('查找链接：', len(links))

　　新闻链接 = []

　　## 2.2 过滤非新闻链接

　　对于链接中的链接：

　　如果不是 link.startswith('http')：

　　继续

　　tld = tldextract.extract(链接)

　　如果 tld.domain == '百度'：

　　继续

　　news_links.append(链接)

　　print('查找新闻链接：', len(news_links))

　　# 3\.下载新闻并保存到数据库

　　对于 news_links 中的链接：

　　html = requests.get(link).text

　　save_to_db（链接，html）

　　print('工作完成！')

　　定义主（）：

　　而1：

　　爬行（）

　　time.sleep(300)

　　如果 __name__ == '__main__'：

　　主要的（）

　　简单解释一下上面的代码：

　　1. 使用请求下载百度新闻首页；

　　2. 先用正则表达式提取a标签的href属性，即网页中的链接；然后找出新闻链接，方法是：假设非百度外链是新闻链接；

　　3. 将找到的所有新闻链接一一下载并保存到数据库中；暂时用打印相关信息代替保存到数据库的功能。

　　4. 每 300 秒重复步骤 1-3 以获取最新消息。

　　上面的代码可以工作，但是只能工作，而且槽位也不多，所以我们一边抱怨一边改进这个爬虫。

　　1. 添加异常处理

　　在编写爬虫时，尤其是与网络请求相关的代码，必须有异常处理。目标服务器是否正常，当时的网络连接是否通畅（超时）等都是爬虫无法控制的，所以在处理网络请求时必须处理异常。网络请求最好设置一个超时时间，以免在某个请求上花费太多时间。超时导致的识别可能是服务器无法响应，也可能是暂时的网络问题。因此，对于超时的异常，我们需要过一段时间再试一次。

　　2. 处理服务器返回的状态，如404、500等。

　　服务器返回的状态非常重要，它决定了我们的爬虫接下来应该做什么。需要处理的常见状态有：

　　301，该URL永久转移到另一个URL，如果稍后请求，转移的URL将被请求

　　404，基本上这个网站已经过期了，以后不要再尝试了

　　500，服务器内部有错误，可能是暂时的，稍后再试

　　3. 管理 URL 的状态

　　记下这次失败的 URL，以便稍后重试。对于超时的URL，需要稍后再去抓取，所以需要记录所有URL的各种状态，包括：

　　下载成功

　　多次下载失败，无需重新下载

　　下载

　　下载失败，重试

　　增加了对网络请求的各种处理，使得爬虫更加健壮，不会随时异常退出，给后续的运维带来了很大的工作量。

　　下一节我们将结合代码一一讲述上述三个插槽的改进。有关更多详细信息，请收听下一个细分。

　　*

　　Python爬虫知识点

　　本节我们使用Python的几个模块，它们在爬虫中的作用如下：

　　1. 请求模块

　　它用于发出 http 网络请求和下载 URL 内容。与 Python 自带的 urllib.request 相比，requests 更容易使用。GET、POST 触手可及：

　　导入请求

　　res = requests.get(url, timeout=5, headers=my_headers)

　　res2 = requests.post(url, data=post_data, timeout=5, headers=my_headers)

　　get() 和 post() 函数有许多可选参数。以上用于设置超时和自定义标头。更多参数请参考requests文档。

　　无论是get()还是post()，requests都会返回一个Response对象，通过这个对象获取下载的内容：

　　res.content 为获取的二进制内容，类型为字节；

　　res.text 是二进制内容内容解码后的str内容；

　　它首先从响应标头中找到编码。如果没有找到，则通过chardet自动判断编码，赋值给res.encoding，最后将二进制内容解密为str类型。

　　经验：res.text在判断中文编码时有时会出错，或者通过cchardet（chardet用C语言实现）获取更准确。在这里，我们举一个例子：

　　在 [1] 中：导入请求

　　在 [2] 中：r = requests.get('#39;)

　　在 [3] 中：r.encoding

　　输出[3]：'ISO-8859-1'

　　[4]中：导入chardet

　　在 [5] 中：chardet.detect(r.content)

　　出[5]：{'信心'：0.99，'编码'：'utf-8'，'语言'：''}

　　以上是使用 ipython 交互解释器的演示（强烈推荐使用 ipython，比 Python 自带的解释器好很多）。打开的网址是山西日报数字新闻，网页源代码的代码是手动utf8，也是chardet判断的utf8。而requests本身判断的编码是ISO-8859-1，那么返回文本的中文文本也会出现乱码。

　　requests 的另一个有用特性是 Session，它部分类似于浏览器并保存 cookie。之后，需要登录并与cookies相关的爬虫可以使用它的session来实现它。

　　2. 重新模块

　　正则表达式主要用于提取html中的相关内容，例如本例中的链接提取。对于更复杂的 html 内容提取，推荐使用 lxml。

　　3. tldextract 模块

　　这是一个第三方模块，需要 pip install tldextract 才能安装。即Top Level Domain extract，即顶级域名提取。前面我们讲过URL的结构，叫做host，是注册域名的子域，com是顶级域名TLD。它的结果是这样的：

　　在 [6] 中：导入 tldextract

　　在 [7] 中：tldextract.extract('#39;)

　　Out[7]: ExtractResult(subdomain='news', domain='baidu', suffix='com')

　　返回结构由三部分组成：子域、域、后缀

　　4. 时间模块

　　时间是我们在程序中经常用到的一个概念，比如在循环中暂停一段时间，获取当前时间戳等。时间模块就是提供时间相关功能的模块。At the same time, there is another module, datetime, which is also time-related, and can be appropriately selected and used according to the situation.

　　记住这些模块，你将在未来的爬虫写作生涯中受益匪浅。

0

2022-04-02

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(Python爬虫异步新闻爬虫新闻聚合网页下载)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(Python爬虫异步新闻爬虫新闻聚合网页下载)

0 个评论

发起人

相关问题