网页爬虫分享大纲，以及一份常见爬虫问题列表

优采云发布时间: 2022-05-06 03:09

　　我在几家搜索公司担任过爬虫研发骨干，也曾带过十几个人的爬虫团队，几乎写过整个网页搜索爬虫的所有模块。最近在整理一些爬虫的经验，这里列了个粗略的大纲，并列了一些问题，对爬虫有兴趣的朋友可以参考下，对着这些问题，也方便大家梳理爬虫知识，规划爬虫学习路径等。在后续文中，也许我会找一些相关主题，展开写一些文章。

　　垂直爬虫特点

　　抓取一个特定网站等，可能也会使用特定的抓取思路。抓取某些 metadata，比较视频的播放数等。

　　设计思路

　　追求简单，快速抓取。

　　模块网页搜索爬虫特点设计思路核心指标覆盖率

　　指的是如何抓取到尽可能多的相关网页。尤其是高频词的重要网页，低频词的稀少网页。

　　时效性

　　指的是如何在最快的时间内，抓取到想要的新网页。比如新闻搜索，如何能够在新闻事件出来的时候，第一时间收录重要的新闻网页。微博搜索更是典型的时效性产品。

　　抓取速度

　　有时候我们要抓取一个特定的网站，用于数据分析、产品决策等，那么如何在尽可能短的时间内完成任务，便很重要。

　　相关协议和标准模块和组件相关开源项目高频爬虫问题

　　代理 IP 的原理是什么？怎么挖掘？

　　如何解决封禁问题？

　　如何抓取一些 js 里的信息？

　　如何解析超大的 XML？

　　如何解析病态的不标准的 HTML？

　　如何挖掘和发现 Hub 页面？

　　DNS 如何存储？

　　DNS 解析如何提速？有哪些开源项目？

　　有哪些开源项目可以直接修改后支持抓取 js 信息？

0

2022-05-06

curl 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫分享大纲，以及一份常见爬虫问题列表

0 个评论

发起人

AI时代内容工厂

网页爬虫分享大纲，以及一份常见爬虫问题列表

0 个评论

发起人

相关问题