python网页数据抓取(如何独立写出爬虫真不是件简单的事情?-八维教育)

优采云 发布时间: 2022-02-11 01:07

  python网页数据抓取(如何独立写出爬虫真不是件简单的事情?-八维教育)

  作为一个刚接触python的新手,独立写一个爬虫是不容易的。首先要学会各种包的管理,还要了解爬取网页数据最基本的技术。以下是我在学习时记录的一些内容。

  一、了解与 网站 链接时要使用的包

  与网站交互,熟悉python下与网页相关的urllib,或urllib2,或httplib包。这三个是python提供的与网页交互的基本模块,还有其他的,比如:mechanize

  斗志昂扬。

  二、解析网页

  我在网上搜索了一些网页,知道了一些基本的方法。

  (1)正则表达式。正则表达式很有用。熟悉它们可以节省很多时间。有时你不需要写脚本或查询数据库来清理数据。你可以直接在notepad++上使用正则表达式.

  学习正则表达式链接:

  (2) BeautifulSoup 模块。BeautifulSoup 是一个非常强大的模块,可以将 html 文件解析成一个对象,也就是一棵树。html 文件是树状的,比如 body -> table -> tbody -> tr,对于

  节点 tbody 有许多 tr 的子节点。BeautifulSoup 可以很方便的获取特定节点,也可以针对单个节点获取其兄弟节点。

  三、捕获数据

  你可以把采集到的数据放到一个txt文件中,这是最基本的方法。当然,你也可以直接连接数据库而不是写入txt文件。python中的MySQLdb模块可以与MySQL数据库进行通信。

  与 MySQL 数据库建立链接的逻辑与与 网站 服务器建立链接的逻辑类似。如果你之前学过数据库,那么学习使用 MySQLdb 模块与数据库交互是

  这很简单;如果没有,则需要使用 coursera\stanford openEdX 平台上打开的 Introduction to Database 进行系统学习,w3school 作为参考或作为手册使用。

  以上是我在学习的时候做的一些小笔记,也有一些借鉴别人的想法。具体代码还有待完善,会在下一篇学习笔记中更新。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线