网站内容搜索(字节跳动为了快速发展搜索业务派出爬虫四处暴力网站内容)
优采云 发布时间: 2022-03-31 20:08网站内容搜索(字节跳动为了快速发展搜索业务派出爬虫四处暴力网站内容)
概括
近日,一位站长在网上发帖抱怨字节跳动为了快速发展搜索业务,派出爬虫暴力抓取网站内容。@>业主造成了很大的损失和麻烦,严重影响了网站的正常用户访问。站长说,今年7月突然发现公司的网站不能频繁打开,网页加载极慢,有时甚至
近日,一位站长在网上发帖抱怨字节跳动为了快速发展搜索业务,派出爬虫暴力抓取网站内容。@>业主造成了很大的损失和麻烦,严重影响了网站的正常用户访问。
站长说,今年7月突然发现公司的网站不能频繁打开,网页加载极慢,有时甚至直接瘫痪。经过一系列排查,在服务器日志中发现了bytespider爬虫的踪迹。爬虫每天的爬取频率达到数百万次,最高可达数千万次。服务器带宽负载飙升至 100%,爬虫在爬取时完全不遵循 网站 robots 协议。
站长顺着爬虫的IP地址查询,确认该爬虫是字节跳动搜索爬虫。
另外,我还从CSDN、V2EX等技术论坛了解到,字节跳动开始搜索后,其实网上一直有站长抱怨头条搜索爬虫爬得太猛,被字节跳动搜索爬虫。这不是个例,很多小网站他们都没有放过。
有网站的小站长抱怨:字节跳动的爬虫“一上午就向网站发出了46万个请求”,网站瘫痪了,百度也懒得这样!
最后,站长说,对于像我们这样做SEO的人来说,主要目标是希望自己的首页网站能够在主流搜索引擎的搜索结果中排名靠前。360、收录等搜索引擎的标准爬取很受欢迎,但是今日头条搜索爬虫的疯狂爬取内容网站完全瘫痪,不仅没有给网站带来流量也影响正常用户访问,不是很“特殊”。
不过字节跳动对此的回应是,“网络报道不实,目前今日头条搜索有反馈机制。网站由于爬虫受到影响,可以通过邮件反馈直接处理。” 明是不准备正面回应的。
因此,看着头条搜索爬虫狂爬网站的内容,雷哥个人认为字节跳动进军全网搜索来搅动搜索市场是件好事,但为了迅速崛起,让自己的爬虫到处乱爬,刚好有问题,大网站服务器配置高,技术人员好,很多小网站受不了字节的折磨——完全击败搜索爬虫。
搜索引擎的索引数据是一点一点积累的。百度和搜狗.360经历了这么多年的发展和积累,才走到了今天。今日头条搜索疯狂爬取内容。远离!