python抓取动态网页( 百度：request爬虫001我想通过自动抓取敏感词)

优采云发布时间: 2022-01-25 03:16

　　python抓取动态网页(

百度：request爬虫001我想通过自动抓取*敏*感*词*)

　　蟒蛇爬虫

　　001

　　我想通过自动爬取*敏*感*词*“python爬虫吧”中的帖子数据，找到那些付费写爬虫的帖子，赚点零花钱！为了尝试新技术，我使用了python中的request模块，因为这个模块简化了http请求的编写。而具体的html内容分析我还是使用xpath技术。

　　百度：索取手册

　　百度：xpath

　　002

　　分析*敏*感*词*的url地址：“%E7%88%AC%E8%99%AB&fr=search”，其中中间的kw字段就是本次爬取的贴吧的名字区域“python 爬虫栏”。

　　首先，使用 request.get 方法获取贴吧主页上的帖子列表。我们希望捕捉到所有的帖子标题，通过标题来判断用户是否有付费的需求或想法。

　　[代码]

　　导入请求

　　page=1 #首页数据= {"id":"utf-8", "kw":"python爬虫", "pn":page}

　　r = requests.get('', params=data) #你见过吗，get可以把params参数传给print(r.text)

　　[代码]

　　request.get 可以通过数组传入get的参数！此代码获取贴吧的主页。这里的page变量是保留变量，用于以后获取其他分页的内容！

　　003

　　关于 xpath 没什么好说的。接下来重点分析首页html的结构。我们打开chorme【开发者工具】，找到帖子标题对应的css代码。然后使用 xpath 方法获取这些帖子。看下面两张图来理解这个过程：

　　AB5A9754-6CE7-44EF-9199-D29956832FFA.png

　　5934D6B4-9E8B-4799-AB2A-CE82A6946778.png

　　[代码]

　　导入请求

　　从 lxml 导入 etree

　　page=1 #首页数据= {"id":"utf-8", "kw":"python爬虫", "pn":page}

　　r = requests.get('', params=data) #你见过吗，get可以通过# print(r.text)root = etree.HTML(r.text)中的params参数

　　result = root.xpath("//ul[@class='threadlist_bright j_threadlist_bright']/li") #查找列表 print(len(result))for i in range(len(result)):

　　title = (result[i].xpath(".//div[@class='threadlist_title pull_left j_th_tit ']/a/text()")) #查找标题

　　打印（标题）

　　[代码]

　　请注意，最重要的是从列表+帖子标题中提取的两个xpath。这需要针对 chorme 进行调试才能将其写出。初步成功，爬取标题列表如下：

　　48[]

　　['新手帮助解决异步库问题']

　　['python2.7环境爬图，初学者请多多指教']

　　【‘江湖告急，来个大佬，怎么用python监控手机推送通知，py交易就可以了’】

　　['中国裁判网站爬取有问题，求大神指点']

　　['分享源码，爬取甜美图妞，怕你硬盘不够大']

　　['问为什么这个头条网址获取不到完整代码']

　　['Python爬虫应该如何学习？学习步骤是什么？Python爬虫应该如何学习']

　　['免费写爬虫，留下你的需求，我来写']

　　['爬取图片保存后只有一张图片是怎么回事']

　　【‘慕课七月老师分享Python3入门+进阶课程视频’】

　　['如何开始使用Python爬虫？']

　　['scrapy 创建错误 10060']

　　['大神指点这个错误是什么意思，我爬了网站里的所有图，我就是一个']

　　['Python基本问答']

　　【‘云计算和大数据路过，Python不知道但有人感兴趣吗？']

　　['Python各种安装包，你需要的任何安装包都可以在下方留言']

　　['有靠谱的python微信学习交流群']

　　【‘七秋新公司最新工商登记数据来源’】

　　['scrapy 框架使用默认文件管道下载视频时出现问题']

0

2022-01-25

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页( 百度：request爬虫001我想通过自动抓取敏感词)

0 个评论

发起人