网站内容抓取(《Python即时网络爬虫项目说明》一文谋数台生成XSLT)
优采云 发布时间: 2021-10-28 23:13网站内容抓取(《Python即时网络爬虫项目说明》一文谋数台生成XSLT)
一、项目背景
在《Python Instant Web Crawler Project 说明》一文中,我们说过要做一个通用的网络爬虫,可以节省程序员的大部分时间。重点是提取器使用的爬取规则需要快速生成。在python中使用xslt提取网页数据的文章中,我们已经看到提取规则是xslt程序。示例程序中,将xslt的一长段直接赋值给了一个变量,但是没有提到xslt的这一段是怎么来的。
网友难免会质疑:这个xslt这么长,是不是要写很久?
实际情况是这个xslt是由GooSeeker的MS直观的标注功能自动生成的。如果你熟练,它会在1分钟内完成。
2. MS 能找到什么
MS 牟书台具有图形界面,集成了一系列 html 解析工具,包括:
MS Moshutai 的界面分为三个部分:DOM 数据窗口、嵌入式浏览器窗口和工作台。在工作台上定义 xslt 转换规则。
3.使用MS生成XSLT
假设我们要抓取一个论坛帖子列表,下面是操作方法的分步说明:
第一步,打开GooSeeker的MS平台,输入要爬取的URL;
第二步,直接在MS Muzushi浏览器显示窗口中选择要提取的内容,并命名,点击确定;
第三步,点击工作台上的“测试”按钮,就会生成xslt并显示在“数据规则”窗口中。
通过以上操作,无需编程,使用图形界面直接在页面上进行标注,1分钟即可生成xslt。
4. 如何使用 XSLT
在python中使用xslt提取网页数据的文章中,我们将生成的xslt作为字符串交给了程序,感觉一下子回到了史前文明。上面说的太好了,最后我们用了一个非常原创的副本。其实不然,那只是一个例子。在《Python Instant Web Crawler Project:Content Extractor的定义》一文中,注入xslt的方式有很多种,最自动化的方式是api,后续文章会详细讲解。
5. 文档修改历史
2016-05-28:V3.0,增加第二章
2016-05-27:V2.0,添加文字说明