python抓取动态网页( 百度:request爬虫001我想通过自动抓取*敏*感*词*)

优采云 发布时间: 2022-01-25 03:16

  python抓取动态网页(

百度:request爬虫001我想通过自动抓取*敏*感*词*)

  

  蟒蛇爬虫

  001

  我想通过自动爬取*敏*感*词*“python爬虫吧”中的帖子数据,找到那些付费写爬虫的帖子,赚点零花钱!为了尝试新技术,我使用了python中的request模块,因为这个模块简化了http请求的编写。而具体的html内容分析我还是使用xpath技术。

  百度:索取手册

  百度:xpath

  002

  分析*敏*感*词*的url地址:“%E7%88%AC%E8%99%AB&fr=search”,其中中间的kw字段就是本次爬取的贴吧的名字区域“python 爬虫栏”。

  首先,使用 request.get 方法获取 贴吧 主页上的帖子列表。我们希望捕捉到所有的帖子标题,通过标题来判断用户是否有付费的需求或想法。

  [代码]

  导入请求

  page=1 #首页数据= {"id":"utf-8", "kw":"python爬虫", "pn":page}

  r = requests.get('', params=data) #你见过吗,get可以把params参数传给print(r.text)

  [代码]

  request.get 可以通过数组传入get的参数!此代码获取 贴吧 的主页。这里的page变量是保留变量,用于以后获取其他分页的内容!

  003

  关于 xpath 没什么好说的。接下来重点分析首页html的结构。我们打开chorme【开发者工具】,找到帖子标题对应的css代码。然后使用 xpath 方法获取这些帖子。看下面两张图来理解这个过程:

  

  AB5A9754-6CE7-44EF-9199-D29956832FFA.png

  

  5934D6B4-9E8B-4799-AB2A-CE82A6946778.png

  [代码]

  导入请求

  从 lxml 导入 etree

  page=1 #首页数据= {"id":"utf-8", "kw":"python爬虫", "pn":page}

  r = requests.get('', params=data) #你见过吗,get可以通过# print(r.text)root = etree.HTML(r.text)中的params参数

  result = root.xpath("//ul[@class='threadlist_bright j_threadlist_bright']/li") #查找列表 print(len(result))for i in range(len(result)):

  title = (result[i].xpath(".//div[@class='threadlist_title pull_left j_th_tit ']/a/text()")) #查找标题

  打印(标题)

  [代码]

  请注意,最重要的是从列表+帖子标题中提取的两个xpath。这需要针对 chorme 进行调试才能将其写出。初步成功,爬取标题列表如下:

  48[]

  ['新手帮助解决异步库问题']

  ['python2.7环境爬图,初学者请多多指教']

  【‘江湖告急,来个大佬,怎么用python监控手机推送通知,py交易就可以了’】

  ['中国裁判网站爬取有问题,求大神指点']

  ['分享源码,爬取甜美图妞,怕你硬盘不够大']

  ['问为什么这个头条网址获取不到完整代码']

  ['Python爬虫应该如何学习?学习步骤是什么?Python爬虫应该如何学习']

  ['免费写爬虫,留下你的需求,我来写']

  ['爬取图片保存后只有一张图片是怎么回事']

  【‘慕课七月老师分享Python3入门+进阶课程视频’】

  ['如何开始使用Python爬虫?']

  ['scrapy 创建错误 10060']

  ['大神指点这个错误是什么意思,我爬了网站里的所有图,我就是一个']

  ['Python基本问答']

  【‘云计算和大数据路过,Python不知道但有人感兴趣吗?']

  ['Python各种安装包,你需要的任何安装包都可以在下方留言']

  ['有靠谱的python微信学习交流群']

  【‘七秋新公司最新工商登记数据来源’】

  ['scrapy 框架使用默认文件管道下载视频时出现问题']

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线