网页爬虫分享大纲,以及一份常见爬虫问题列表

优采云 发布时间: 2022-05-06 03:09

  网页爬虫分享大纲,以及一份常见爬虫问题列表

  我在几家搜索公司担任过爬虫研发骨干,也曾带过十几个人的爬虫团队,几乎写过整个网页搜索爬虫的所有模块。最近在整理一些爬虫的经验,这里列了个粗略的大纲,并列了一些问题,对爬虫有兴趣的朋友可以参考下,对着这些问题,也方便大家梳理爬虫知识,规划爬虫学习路径等。在后续文中,也许我会找一些相关主题,展开写一些文章。

  垂直爬虫特点

  抓取一个特定网站等,可能也会使用特定的抓取思路。抓取某些 metadata,比较视频的播放数等。

  设计思路

  追求简单,快速抓取。

  模块网页搜索爬虫特点设计思路核心指标覆盖率

  指的是如何抓取到尽可能多的相关网页。尤其是高频词的重要网页,低频词的稀少网页。

  时效性

  指的是如何在最快的时间内,抓取到想要的新网页。比如新闻搜索,如何能够在新闻事件出来的时候,第一时间收录重要的新闻网页。微博搜索更是典型的时效性产品。

  抓取速度

  有时候我们要抓取一个特定的网站,用于数据分析、产品决策等,那么如何在尽可能短的时间内完成任务,便很重要。

  相关协议和标准模块和组件相关开源项目高频爬虫问题

  代理 IP 的原理是什么?怎么挖掘?

  如何解决封禁问题?

  如何抓取一些 js 里的信息?

  如何解析超大的 XML?

  如何解析病态的不标准的 HTML?

  如何挖掘和发现 Hub 页面?

  DNS 如何存储?

  DNS 解析如何提速?有哪些开源项目?

  有哪些开源项目可以直接修改后支持抓取 js 信息?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线