python网页数据抓取(如何独立写出爬虫真不是件简单的事情？-八维教育)

优采云发布时间: 2022-02-11 01:07

　　作为一个刚接触python的新手，独立写一个爬虫是不容易的。首先要学会各种包的管理，还要了解爬取网页数据最基本的技术。以下是我在学习时记录的一些内容。

　　一、了解与网站链接时要使用的包

　　与网站交互，熟悉python下与网页相关的urllib，或urllib2，或httplib包。这三个是python提供的与网页交互的基本模块，还有其他的，比如：mechanize

　　斗志昂扬。

　　二、解析网页

　　我在网上搜索了一些网页，知道了一些基本的方法。

　　(1)正则表达式。正则表达式很有用。熟悉它们可以节省很多时间。有时你不需要写脚本或查询数据库来清理数据。你可以直接在notepad++上使用正则表达式.

　　学习正则表达式链接：

　　(2) BeautifulSoup 模块。BeautifulSoup 是一个非常强大的模块，可以将 html 文件解析成一个对象，也就是一棵树。html 文件是树状的，比如 body -> table -> tbody -> tr，对于

　　节点 tbody 有许多 tr 的子节点。BeautifulSoup 可以很方便的获取特定节点，也可以针对单个节点获取其兄弟节点。

　　三、捕获数据

　　你可以把采集到的数据放到一个txt文件中，这是最基本的方法。当然，你也可以直接连接数据库而不是写入txt文件。python中的MySQLdb模块可以与MySQL数据库进行通信。

　　与 MySQL 数据库建立链接的逻辑与与网站服务器建立链接的逻辑类似。如果你之前学过数据库，那么学习使用 MySQLdb 模块与数据库交互是

　　这很简单；如果没有，则需要使用 coursera\stanford openEdX 平台上打开的 Introduction to Database 进行系统学习，w3school 作为参考或作为手册使用。

　　以上是我在学习的时候做的一些小笔记，也有一些借鉴别人的想法。具体代码还有待完善，会在下一篇学习笔记中更新。

0

2022-02-11

python网页数据抓取

0 个评论

要回复文章请先登录或注册