搜索游戏中的小玩家也可以编号爬行数十亿的页面.In2006(组图)

优采云发布时间: 2021-07-10 18:08

　　如果您想要的数据是最新的，则不会。

　　即使是游戏中的一个小玩家也可以爬行数十亿页。

　　“在 2006 年，Google 索引了超过 250 亿个网页，[32] 每天 4 亿次查询，[32] 1.30 亿张图片，以及超过 10 亿条 Usenet 消息。”– 维基百科

　　记得引用 2006 年的数字。这是古老的历史。最先进的技术比这更好。

　　内容新鲜度：

　　>新内容不断增加（逼真）

　　>现有网页经常发生变化——需要重新爬取的原因有两个：a)判断是否已死，b)判断内容是否发生变化。

　　爬行者的礼貌：

　　>你不能压倒任何给定的网站。如果您重复点击同一IP的任何主要站点，您可以触发CAPTCHA提示，否则您的IP地址将被阻止。网站将根据带宽频率、“坏”页面请求的数量以及其他各种事情来请求。

　　>有robots.txt协议，网站暴露给爬虫并遵守。

　　>有一个网站map标准，网站暴露给爬虫，用它帮你探索——你也可以（如果你选择）权重页面在网站上的相对重要性，并使用时间存在于缓存中，如果它在网站Map 中。

　　减少你需要做的工作：

　　通常，网站通过多个名字暴露自己——你需要检测同一个页面——这可能发生在同一个网址或不同的网址上。考虑页面内容的散列（减去标题，日期/时间不断变化）。跟踪这些页面等效项并在下次跳过或确定给定站点之间是否存在众所周知的映射，以便您不必进行爬网。

　　>那里有很多垃圾邮件，只能通过谷歌的网页，但他们“播种”了自己的网站，以便自己爬行。

　　所以——你总是处于爬行周期中。总是。几乎肯定会有几台（许多）机器。确保您可以遵循礼貌，但仍然保持数据的新鲜度。

　　如果你想按下快进按钮，你只需要用你自己独特的算法处理页面。如果您需要快速搜索，您可以利用预先构建的爬虫，如图所示。他们使用客户端计算能力。

　　80 条腿正在使用网站上孩子们玩游戏的机器周期。想想网页上的一个后台进程，确实是调用了，用page/网站的时候是不行的，因为他们用的是Plura技术栈。

　　“Plura Processing 为分布式计算开发了一种新的创新技术。我们正在申请专利的技术可以嵌入到任何网页中。这些网页的访问者成为节点，并为在我们的分布式计算网络上运行的应用程序执行非常小的计算。 ”– Plura 演示页面

　　所以他们通过上千个IP的上千个节点发布“爬虫”，对网站客气，爬得快。现在我个人不知道我关心最终用户浏览器的风格，除非它们在所有使用技术的网站上都显示得很清楚——但如果没有别的，这是一种开箱即用的方法.

　　社区驱动的项目中还有其他爬虫，你也可以使用。

　　正如其他受访者所指出的那样——做数学。您需要每秒抓取大约 2300 个页面才能每 5 天抓取 1B 个页面。如果您愿意等待更长时间，那么这个数字将会下降。如果你认为你必须赶上超过 1B 的数字，它就会上升。简单的数学

　　祝你好运！

0

2021-07-10

网站内容抓取工具

0 个评论

要回复文章请先登录或注册