关于采集器和浏览器内核(完整版)的思考
优采云 发布时间: 2020-08-06 04:07我已经从事采集工作很多年了,对此技术点我有了更多的见解. 让我与您分享. 欢迎批评和指正.
当前采集技术的几个基本方面:
1. 可达性: 是否可以获取信息
2. 效率: 如何高效获得,有两种:
A. 一般效率问题:
a. SOCKET级别的效率
b. JS级效率问题
B. 目标效率问题
根据目标网站的逻辑特征,采用有针对性的采集算法. 包括目标重复检查算法和目标刷新算法,以避免重复采集和无效采集.
3. 系统集成
如何将采集系统集成在一起,以及如何与提取算法形成一个整体,以便系统可以确保采集率,正确的采集和提取率,实时性能和网站适应性. 达到整个系统的最佳状态.
4. 反托收问题
获取程序是交互式程序. 这不是纯粹的程序行为,而是一种社会行为.
采集技术的最重要特征是被动的后续开发. 随着Internet的发展,它继续面临着新的技术挑战.
基本过程总结如下:
1.Web1.0时代
在互联网发展的初期,以TCP和HTTP技术为核心技术,以信息发布为主要功能的网站是分开建立的.
相应的采集器技术基于Socket技术,而链接提取是核心.
在系统和分布式技术上合并URL重复检查.
相关研究集中于主题采集和刷新算法. 以最低的成本获得所需的东西.
2.web2.0时代
Web2.0更关注用户的交互. 用户不仅是网站内容的查看者,而且还是网站内容的创建者
随着新闻,论坛和博客的兴起,这些站点具有相同的结构.
主要挑战是如何及时获取新信息?如何适应和使用这些网站结构并开发相应的采集算法.
3. JS / AJAX / HTML5的兴起
丰富的JS技术(包括HTML5)的逐渐兴起为诸如Canvas之类的采集技术带来了新的挑战. 未来是否会成为网站开发技术的主流还不得而知.
获取的基本问题已从下载页面变为下载交互式程序,提供交互式操作,判断程序结束并获得程序结果.
由于JS技术与浏览器环境密切相关,因此浏览器技术已成为解决此类问题的最重要方法.
但是实际上,并非不可能与浏览器分离. JS技术被广泛应用后,如何理解浏览器和JS程序并根据集合问题对其进行优化将是一个需要解决的问题.
如果是这样,浏览器技术将成为未来捕获技术的核心.