关于采集器和浏览器内核(完整版)的思考

优采云 发布时间: 2020-08-06 04:07

  我已经从事采集工作很多年了,对此技术点我有了更多的见解. 让我与您分享. 欢迎批评和指正.

  当前采集技术的几个基本方面:

  1. 可达性: 是否可以获取信息

  2. 效率: 如何高效获得,有两种:

  A. 一般效率问题:

  a. SOCKET级别的效率

  b. JS级效率问题

  B. 目标效率问题

  根据目标网站的逻辑特征,采用有针对性的采集算法. 包括目标重复检查算法和目标刷新算法,以避免重复采集和无效采集.

  3. 系统集成

  如何将采集系统集成在一起,以及如何与提取算法形成一个整体,以便系统可以确保采集率,正确的采集和提取率,实时性能和网站适应性. 达到整个系统的最佳状态.

  4. 反托收问题

  获取程序是交互式程序. 这不是纯粹的程序行为,而是一种社会行为.

  采集技术的最重要特征是被动的后续开发. 随着Internet的发展,它继续面临着新的技术挑战.

  基本过程总结如下:

  1.Web1.0时代

  在互联网发展的初期,以TCP和HTTP技术为核心技术,以信息发布为主要功能的网站是分开建立的.

  相应的采集器技术基于Socket技术,而链接提取是核心.

  在系统和分布式技术上合并URL重复检查.

  相关研究集中于主题采集和刷新算法. 以最低的成本获得所需的东西.

  2.web2.0时代

  Web2.0更关注用户的交互. 用户不仅是网站内容的查看者,而且还是网站内容的创建者

  随着新闻,论坛和博客的兴起,这些站点具有相同的结构.

  主要挑战是如何及时获取新信息?如何适应和使用这些网站结构并开发相应的采集算法.

  3. JS / AJAX / HTML5的兴起

  丰富的JS技术(包括HTML5)的逐渐兴起为诸如Canvas之类的采集技术带来了新的挑战. 未来是否会成为网站开发技术的主流还不得而知.

  获取的基本问题已从下载页面变为下载交互式程序,提供交互式操作,判断程序结束并获得程序结果.

  由于JS技术与浏览器环境密切相关,因此浏览器技术已成为解决此类问题的最重要方法.

  但是实际上,并非不可能与浏览器分离. JS技术被广泛应用后,如何理解浏览器和JS程序并根据集合问题对其进行优化将是一个需要解决的问题.

  如果是这样,浏览器技术将成为未来捕获技术的核心.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线