百度网页关键字抓取(Python页面上的所有及其词条,每天进步一点点,结果)

优采云 发布时间: 2021-11-25 11:00

  百度网页关键字抓取(Python页面上的所有及其词条,每天进步一点点,结果)

  这几天学习爬行有点过于激进了。我一直在努力学习爬行,但一踏进坑里就跳不出来。郁闷了一天,终于发现自己的基础太差了,比如基本功能,文件输出等等。在这个层次上是不可能写出复杂的爬虫的。想了想,还是决定买一本python基础的书来弥补一下,同时写了一个简单的爬虫来练手。

  以下是我买的python基础书。听说这本书是python最好的入门书↓↓↓

  今天写一个简单的爬虫,目标是百度百科Python词条页面上的所有词条及其链接。

  ◆ 分析目标:

  ① 目标网址:

  ② 页面编码:utf-8(右键查看页面空白区域查看)

  ③ 目标标签样式:多查几个条目,你会发现它们位于标签名称的标签中,属性为target="_blank", href=/item/ + 一堆字符

  然后开始写代码:

  先导入必要的库,然后指定目标url:

  使用urlopen下载页面,使用Beautiful Soup解析页面(解析器指定“html.parser”,否则会报错)

  由于我使用Python IDE: pycharm 键入代码,它自动指定了“UTF-8”格式(在右下角),所以我不再需要指定解析格式:

  然后结合 .findAll() 方法和正则表达式来过滤掉不相关的内容:

  最终输出:

  主要代码就是这些,整理一下,完整代码如下:

  打印结果截图如下:(内容较多,请先贴两页)

  眼尖的朋友可能会发现,第一张截图的第一个条目是一个不应该出现的条目,而第二个截图中倒数第四个条目竟然是一个大括号{}。. 前额。我认为我的正则表达式并不完美。暂时不知道怎么改进。我必须努力学习。.

  每天学习一点点,每天进步一点点

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线