网页新闻抓取(Python案例scrapy抓取学院新闻报告任务(抓取四川大学公共管理学院官网))

优采云发布时间: 2021-12-31 06:10

　　Python案例

　　scrapy 抓取大学新闻报道

　　任务

　　从四川大学公共管理学院官网获取所有新闻查询()。

　　实验过程

　　1.确定爬取目标。

　　2.制定爬取规则。

　　3.'Write/Debug' 爬取规则。

　　4.获取爬取数据

　　1.确定爬取目标

　　这次我们要捕捉的目标是四川大学公共管理学院的所有新闻和信息。所以我们需要了解一下公共管理学院官网的布局。

　　在这里我们发现，如果要抓取所有的新闻信息，不能在官网首页直接抓取，需要点击“更多”进入新闻主栏目。

　　我们看到了具体的新闻栏目，但这显然不能满足我们的抓取需求：目前的新闻动态网页只能抓取新闻的时间、标题和网址，不能抓取新闻的内容。所以我们要进入到新闻详情页面来抓取新闻的具体内容。

　　2.制定爬取规则

　　通过第一部分的分析，我们会认为，如果要抓取一条新闻的具体信息，需要点击新闻动态页面，进入新闻详情页，才能抓取该新闻的具体内容。让我们点击一个新闻来试试看

　　我们发现可以直接在新闻详情页抓取我们需要的数据：title、time、content.URL。

　　好了，现在我们对抓取一条新闻有了一个清晰的认识。但是如何抓取所有的新闻内容呢？

　　这对我们来说显然不难。

　　我们可以在新闻版块底部看到页面跳转按钮。然后我们可以使用“下一页”按钮来抓取所有新闻。

　　于是整理了一下思路，我们可以想到一个明显的爬取规则：

　　抓取“新闻版块”下的所有新闻链接，进入新闻详情链接即可抓取所有新闻内容。

　　3.'Write/Debug'爬取规则

　　为了使调试爬虫的粒度尽可能小，我将编写和调试模块结合起来。

　　在爬虫中，我会实现以下功能点：

　　1. 抓取页面新闻部分下的所有新闻链接

　　2. 通过抓取的一页新闻链接输入新闻详情，抓取所需数据（主要是新闻内容）

　　3. 通过循环抓取所有新闻。

　　对应的知识点是：

　　1. 抓取一个页面下的基本数据。

　　2. 对爬取的数据执行第二次爬取。

　　3.通过循环抓取网页的所有数据。

　　话不多说，现在就去做吧。

　　3.1 抓取页面新闻部分下的所有新闻链接

　　通过对新闻版块源码的分析，我们发现抓取到的数据的结构是

　　那么我们只需要将爬虫的selector定位到(li:newsinfo_box_cf)，然后进行for循环捕获即可。

　　写代码

　　import scrapyclass News2Spider(scrapy.Spider):

　　测试，通过！

　　3.2 通过抓取的一页新闻链接输入新闻详情，抓取所需数据（主要是新闻内容）

　　现在我已经获得了一组网址，现在我需要输入每个网址来抓取我需要的标题、时间和内容。代码实现也很简单。我只需要输入网址，在原代码抓取网址时抓取即可。只需获取相应的数据。所以，我只需要再写一个爬取方法进入新闻详情页，使用scapy.request调用即可。

　　写代码

　　#进入新闻详情页的抓取方法def parse_dir_contents(self, response): item = GgglxyItem() item['date'] = response.xpath("//div[@class='detail_zy_title']/p/text()").extract_first() item['href'] = response item['title'] = response.xpath("//div[@class='detail_zy_title']/h1/text()").extract_first()

　　集成到原代码后，有：

　　import scrapyfrom ggglxy.items import GgglxyItemclass News2Spider(scrapy.Spider):

　　测试，通过！

　　这时候我们添加一个循环：

　　NEXT_PAGE_NUM = 1 NEXT_PAGE_NUM = NEXT_PAGE_NUM + 1

　　添加到原创代码：

　　import scrapyfrom ggglxy.items import GgglxyItem

　　测试：

　　Paste_Image.png

　　抓到的号码是191，但我们查看官网，发现有193条新闻，2条不见了。

　　为什么？我们注意到有两个日志错误：

　　定位问题：原来学院新闻版块有两个隐藏的二级栏目：

　　例如：

　　Paste_Image.png

　　对应的网址是

　　Paste_Image.png

　　网址都不一样，难怪你抓不住！

　　然后我们要对这两个二级列的URL设置特殊的规则，我们只需要添加来判断它们是否是二级列：

　　 if URL.find('type') != -1: yield scrapy.Request(URL, callback=self.parse)

　　组装原函数：

　　import scrapy

　　测试：

　　4.获取爬取数据

　　 scrapy crawl news_info_2 -o 0016.json

　　如果您在学习过程中遇到任何问题或者想获取学习资源，欢迎加入学习交流群

　　626062078，一起学Python吧！

0

2021-12-31

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(Python案例scrapy抓取学院新闻报告任务(抓取四川大学公共管理学院官网))

0 个评论

发起人