关于采集器和浏览器内核（完整版）的思考

优采云发布时间: 2020-08-06 04:07

　　我已经从事采集工作很多年了，对此技术点我有了更多的见解. 让我与您分享. 欢迎批评和指正.

　　当前采集技术的几个基本方面:

　　1. 可达性: 是否可以获取信息

　　2. 效率: 如何高效获得，有两种:

　　A. 一般效率问题:

　　a. SOCKET级别的效率

　　b. JS级效率问题

　　B. 目标效率问题

　　根据目标网站的逻辑特征，采用有针对性的采集算法. 包括目标重复检查算法和目标刷新算法，以避免重复采集和无效采集.

　　3. 系统集成

　　如何将采集系统集成在一起，以及如何与提取算法形成一个整体，以便系统可以确保采集率，正确的采集和提取率，实时性能和网站适应性. 达到整个系统的最佳状态.

　　4. 反托收问题

　　获取程序是交互式程序. 这不是纯粹的程序行为，而是一种社会行为.

　　采集技术的最重要特征是被动的后续开发. 随着Internet的发展，它继续面临着新的技术挑战.

　　基本过程总结如下:

　　1.Web1.0时代

　　在互联网发展的初期，以TCP和HTTP技术为核心技术，以信息发布为主要功能的网站是分开建立的.

　　相应的采集器技术基于Socket技术，而链接提取是核心.

　　在系统和分布式技术上合并URL重复检查.

　　相关研究集中于主题采集和刷新算法. 以最低的成本获得所需的东西.

　　2.web2.0时代

　　Web2.0更关注用户的交互. 用户不仅是网站内容的查看者，而且还是网站内容的创建者

　　随着新闻，论坛和博客的兴起，这些站点具有相同的结构.

　　主要挑战是如何及时获取新信息？如何适应和使用这些网站结构并开发相应的采集算法.

　　3. JS / AJAX / HTML5的兴起

　　丰富的JS技术（包括HTML5）的逐渐兴起为诸如Canvas之类的采集技术带来了新的挑战. 未来是否会成为网站开发技术的主流还不得而知.

　　获取的基本问题已从下载页面变为下载交互式程序，提供交互式操作，判断程序结束并获得程序结果.

　　由于JS技术与浏览器环境密切相关，因此浏览器技术已成为解决此类问题的最重要方法.

　　但是实际上，并非不可能与浏览器分离. JS技术被广泛应用后，如何理解浏览器和JS程序并根据集合问题对其进行优化将是一个需要解决的问题.

　　如果是这样，浏览器技术将成为未来捕获技术的核心.

0

2020-08-06

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册