python网页数据抓取(如何独立写出爬虫真不是件简单的事情?-八维教育)
优采云 发布时间: 2022-02-11 01:07python网页数据抓取(如何独立写出爬虫真不是件简单的事情?-八维教育)
作为一个刚接触python的新手,独立写一个爬虫是不容易的。首先要学会各种包的管理,还要了解爬取网页数据最基本的技术。以下是我在学习时记录的一些内容。
一、了解与 网站 链接时要使用的包
与网站交互,熟悉python下与网页相关的urllib,或urllib2,或httplib包。这三个是python提供的与网页交互的基本模块,还有其他的,比如:mechanize
斗志昂扬。
二、解析网页
我在网上搜索了一些网页,知道了一些基本的方法。
(1)正则表达式。正则表达式很有用。熟悉它们可以节省很多时间。有时你不需要写脚本或查询数据库来清理数据。你可以直接在notepad++上使用正则表达式.
学习正则表达式链接:
(2) BeautifulSoup 模块。BeautifulSoup 是一个非常强大的模块,可以将 html 文件解析成一个对象,也就是一棵树。html 文件是树状的,比如 body -> table -> tbody -> tr,对于
节点 tbody 有许多 tr 的子节点。BeautifulSoup 可以很方便的获取特定节点,也可以针对单个节点获取其兄弟节点。
三、捕获数据
你可以把采集到的数据放到一个txt文件中,这是最基本的方法。当然,你也可以直接连接数据库而不是写入txt文件。python中的MySQLdb模块可以与MySQL数据库进行通信。
与 MySQL 数据库建立链接的逻辑与与 网站 服务器建立链接的逻辑类似。如果你之前学过数据库,那么学习使用 MySQLdb 模块与数据库交互是
这很简单;如果没有,则需要使用 coursera\stanford openEdX 平台上打开的 Introduction to Database 进行系统学习,w3school 作为参考或作为手册使用。
以上是我在学习的时候做的一些小笔记,也有一些借鉴别人的想法。具体代码还有待完善,会在下一篇学习笔记中更新。