网页源代码抓取工具(爬虫网页源代码的查看工具-爬虫的开发环境)
优采云 发布时间: 2022-02-07 22:04网页源代码抓取工具(爬虫网页源代码的查看工具-爬虫的开发环境)
爬虫主要是过滤掉网页中无用的信息。从网页抓取有用的信息
一般的爬虫架构是:
在python爬虫之前,你必须对网页的结构知识有一定的了解。网页标签、网页语言等知识,推荐去W3School:
W3school 链接查找
爬取前还有一些工具:
1.首先是Python的开发环境:这里我选择了python2.7。开发的IDE为了安装调试方便,选择在VS2013上使用python插件在VS上开发(python程序的调试和c的调试差不多,比较熟悉)。
2.网页源代码查看工具:虽然每个浏览器都可以查看网页源代码。但是这里我还是推荐火狐浏览器和FirBug插件(同时这两个也是web开发者必备的工具之一);
FirBug插件的安装可以在右侧添加的组件中安装;
接下来,让我们尝试查看网页的源代码。这里我以我们要爬取的篮球数据为例:
比如我要爬取网页中Team Comparison表的内容:
<p>