网页爬虫分享大纲,以及一份常见爬虫问题列表
优采云 发布时间: 2022-05-06 03:09网页爬虫分享大纲,以及一份常见爬虫问题列表
我在几家搜索公司担任过爬虫研发骨干,也曾带过十几个人的爬虫团队,几乎写过整个网页搜索爬虫的所有模块。最近在整理一些爬虫的经验,这里列了个粗略的大纲,并列了一些问题,对爬虫有兴趣的朋友可以参考下,对着这些问题,也方便大家梳理爬虫知识,规划爬虫学习路径等。在后续文中,也许我会找一些相关主题,展开写一些文章。
垂直爬虫特点
抓取一个特定网站等,可能也会使用特定的抓取思路。抓取某些 metadata,比较视频的播放数等。
设计思路
追求简单,快速抓取。
模块网页搜索爬虫特点设计思路核心指标覆盖率
指的是如何抓取到尽可能多的相关网页。尤其是高频词的重要网页,低频词的稀少网页。
时效性
指的是如何在最快的时间内,抓取到想要的新网页。比如新闻搜索,如何能够在新闻事件出来的时候,第一时间收录重要的新闻网页。微博搜索更是典型的时效性产品。
抓取速度
有时候我们要抓取一个特定的网站,用于数据分析、产品决策等,那么如何在尽可能短的时间内完成任务,便很重要。
相关协议和标准模块和组件相关开源项目高频爬虫问题
代理 IP 的原理是什么?怎么挖掘?
如何解决封禁问题?
如何抓取一些 js 里的信息?
如何解析超大的 XML?
如何解析病态的不标准的 HTML?
如何挖掘和发现 Hub 页面?
DNS 如何存储?
DNS 解析如何提速?有哪些开源项目?
有哪些开源项目可以直接修改后支持抓取 js 信息?