网站内容抓取(《Python即时网络爬虫项目说明》一文谋数台生成XSLT)

优采云发布时间: 2021-10-28 23:13

　　一、项目背景

　　在《Python Instant Web Crawler Project 说明》一文中，我们说过要做一个通用的网络爬虫，可以节省程序员的大部分时间。重点是提取器使用的爬取规则需要快速生成。在python中使用xslt提取网页数据的文章中，我们已经看到提取规则是xslt程序。示例程序中，将xslt的一长段直接赋值给了一个变量，但是没有提到xslt的这一段是怎么来的。

　　网友难免会质疑：这个xslt这么长，是不是要写很久？

　　实际情况是这个xslt是由GooSeeker的MS直观的标注功能自动生成的。如果你熟练，它会在1分钟内完成。

　　2. MS 能找到什么

　　MS 牟书台具有图形界面，集成了一系列 html 解析工具，包括：

　　MS Moshutai 的界面分为三个部分：DOM 数据窗口、嵌入式浏览器窗口和工作台。在工作台上定义 xslt 转换规则。

　　3.使用MS生成XSLT

　　假设我们要抓取一个论坛帖子列表，下面是操作方法的分步说明：

　　第一步，打开GooSeeker的MS平台，输入要爬取的URL；

　　第二步，直接在MS Muzushi浏览器显示窗口中选择要提取的内容，并命名，点击确定；

　　第三步，点击工作台上的“测试”按钮，就会生成xslt并显示在“数据规则”窗口中。

　　通过以上操作，无需编程，使用图形界面直接在页面上进行标注，1分钟即可生成xslt。

　　4. 如何使用 XSLT

　　在python中使用xslt提取网页数据的文章中，我们将生成的xslt作为字符串交给了程序，感觉一下子回到了史前文明。上面说的太好了，最后我们用了一个非常原创的副本。其实不然，那只是一个例子。在《Python Instant Web Crawler Project：Content Extractor的定义》一文中，注入xslt的方式有很多种，最自动化的方式是api，后续文章会详细讲解。

　　5. 文档修改历史

　　2016-05-28：V3.0，增加第二章

　　2016-05-27：V2.0，添加文字说明

0

2021-10-28

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(《Python即时网络爬虫项目说明》一文谋数台生成XSLT)

0 个评论

发起人

AI时代内容工厂

网站内容抓取(《Python即时网络爬虫项目说明》一文谋数台生成XSLT)

0 个评论

发起人

相关问题