网页新闻抓取(公管网络爬虫教程实战项目之任务抓取规则..)

优采云发布时间: 2022-03-28 01:15

　　这个文章是一个非常不错的python网络爬虫教程实战项目。总的来说，爬虫是Python可以实现的一个比较简单的功能，适合新手练习。

　　任务

　　从四川大学公共管理学院官方网站获取所有新闻和查询。

　　实验过程

　　1.确定获取目标。

　　2.创建抓取规则。

　　3.'Write/debug' 抓取规则。

　　4.获取爬取数据

　　1.识别爬取目标

　　这次我们要抢的目标是四川大学公共管理学院的所有新闻资讯。所以我们需要知道公共管理学院官网的布局。

　　在这里我们发现，如果要抓取所有新闻信息，不能直接在官网首页抓取，需要点击“更多”进入综合新闻版块。

　　我们看到了具体的新闻板块，但这显然不能满足我们的抓取需求：目前的新闻动态网页只能抓取新闻的时间、标题和网址，而不能抓取新闻的内容。所以我们要进入新闻详情页面去抓取新闻的具体内容。

　　2.创建抓取规则

　　通过第一部分的分析，我们会认为如果要抓取一条新闻的具体信息，需要从新闻动态页面点击进入新闻详情页面，抓取新闻的具体内容。让我们点击新闻试试

　　我们可以在新闻部分的底部看到页面跳转按钮。然后我们可以通过“下一页”按钮抓取所有新闻。

　　所以整理思路后，我们可以想到一个明显的抓取规则：

　　通过抓取“新闻版块”下的所有新闻链接，进入新闻详情链接即可抓取所有新闻内容。

　　3.'Write/Debug' 抓取规则

　　为了让调试爬虫的粒度尽可能小，我把编写和调试模块组合在一起。

　　在爬虫中，我将实现以下功能点：

　　1.从新闻版块下的所有新闻链接中爬出一页

　　2.通过一个页面上爬取的新闻链接，进入新闻详情，爬取需要的数据（主要是新闻内容）

　　3.通过循环抓取所有新闻。

　　对应的知识点为：

　　1.爬出一个页面下的基础数据。

　　2.对爬取的数据进行二次爬取。

　　3.通过循环爬取网页的所有数据。

　　事不宜迟，我们现在就开始吧。

　　3.1 爬出页面新闻版块下的所有新闻链接

　　通过对新闻栏目源码的分析，我们发现抓取到的数据结构如下：

　　那么我们只需要将爬虫的选择器定位到（li:newsinfo_box_cf），然后执行for循环即可抓取。

　　编写代码

　　测试并通过！

　　3.2 通过页面上爬取的新闻链接输入爬取新闻详情（主要是新闻内容）所需的数据

　　现在我已经获取了一组网址，现在我需要输入每个网址来抓取我需要的标题、时间和内容。代码实现也很简单。我只需要在原创代码抓取一个URL并抓取它时输入URL。只需获取相应的数据。所以，我只需要再写一个grab方法进入新闻详情页面，并使用scapy.request调用即可。

　　编写代码

　　整合到原代码中后，有：

　　测试并通过！

　　然后我们添加一个循环：

　　添加到原创代码中：

　　测试：

　　捕获的数量是191，但我们在官网上找到了193条新闻，少了两条。

　　为什么？我们注意到日志中有两个错误：

　　定位问题：原来学院新闻栏目有两个隐藏的二级栏目：

　　例如：

　　对应的网址是

　　网址都不一样，难怪抓不到！

　　那么我们要对这两个二级列的url设置特殊的规则，只需要添加判断是否是二级列：

　　组装原函数：

　　测试：

　　4.获取爬取数据

　　文章到此结束。不知道大家对python网络爬虫教程有什么样的理解？此功能对您有多大用处？

0

2022-03-28

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(公管网络爬虫教程实战项目之任务抓取规则..)

0 个评论

发起人

AI时代内容工厂

网页新闻抓取(公管网络爬虫教程实战项目之任务抓取规则..)

0 个评论

发起人

相关问题