百度网页关键字抓取(Python页面上的所有及其词条，每天进步一点点，结果)

优采云发布时间: 2021-11-25 11:00

　　这几天学习爬行有点过于激进了。我一直在努力学习爬行，但一踏进坑里就跳不出来。郁闷了一天，终于发现自己的基础太差了，比如基本功能，文件输出等等。在这个层次上是不可能写出复杂的爬虫的。想了想，还是决定买一本python基础的书来弥补一下，同时写了一个简单的爬虫来练手。

　　以下是我买的python基础书。听说这本书是python最好的入门书↓↓↓

　　今天写一个简单的爬虫，目标是百度百科Python词条页面上的所有词条及其链接。

　　◆ 分析目标：

　　① 目标网址：

　　② 页面编码：utf-8（右键查看页面空白区域查看）

　　③ 目标标签样式：多查几个条目，你会发现它们位于标签名称的标签中，属性为target="_blank", href=/item/ + 一堆字符

　　然后开始写代码：

　　先导入必要的库，然后指定目标url：

　　使用urlopen下载页面，使用Beautiful Soup解析页面（解析器指定“html.parser”，否则会报错）

　　由于我使用Python IDE: pycharm 键入代码，它自动指定了“UTF-8”格式（在右下角），所以我不再需要指定解析格式：

　　然后结合 .findAll() 方法和正则表达式来过滤掉不相关的内容：

　　最终输出：

　　主要代码就是这些，整理一下，完整代码如下：

　　打印结果截图如下：（内容较多，请先贴两页）

　　眼尖的朋友可能会发现，第一张截图的第一个条目是一个不应该出现的条目，而第二个截图中倒数第四个条目竟然是一个大括号{}。. 前额。我认为我的正则表达式并不完美。暂时不知道怎么改进。我必须努力学习。.

　　每天学习一点点，每天进步一点点

0

2021-11-25

百度网页关键字抓取

0 个评论

要回复文章请先登录或注册