百度网页关键字抓取(Python页面上的所有及其词条,每天进步一点点,结果)
优采云 发布时间: 2021-11-25 11:00百度网页关键字抓取(Python页面上的所有及其词条,每天进步一点点,结果)
这几天学习爬行有点过于激进了。我一直在努力学习爬行,但一踏进坑里就跳不出来。郁闷了一天,终于发现自己的基础太差了,比如基本功能,文件输出等等。在这个层次上是不可能写出复杂的爬虫的。想了想,还是决定买一本python基础的书来弥补一下,同时写了一个简单的爬虫来练手。
以下是我买的python基础书。听说这本书是python最好的入门书↓↓↓
今天写一个简单的爬虫,目标是百度百科Python词条页面上的所有词条及其链接。
◆ 分析目标:
① 目标网址:
② 页面编码:utf-8(右键查看页面空白区域查看)
③ 目标标签样式:多查几个条目,你会发现它们位于标签名称的标签中,属性为target="_blank", href=/item/ + 一堆字符
然后开始写代码:
先导入必要的库,然后指定目标url:
使用urlopen下载页面,使用Beautiful Soup解析页面(解析器指定“html.parser”,否则会报错)
由于我使用Python IDE: pycharm 键入代码,它自动指定了“UTF-8”格式(在右下角),所以我不再需要指定解析格式:
然后结合 .findAll() 方法和正则表达式来过滤掉不相关的内容:
最终输出:
主要代码就是这些,整理一下,完整代码如下:
打印结果截图如下:(内容较多,请先贴两页)
眼尖的朋友可能会发现,第一张截图的第一个条目是一个不应该出现的条目,而第二个截图中倒数第四个条目竟然是一个大括号{}。. 前额。我认为我的正则表达式并不完美。暂时不知道怎么改进。我必须努力学习。.
每天学习一点点,每天进步一点点