名誉 搜索引擎优化(王东“弱者活该”的说法:太频繁“不杀不行”)

优采云 发布时间: 2021-10-25 17:17

  名誉 搜索引擎优化(王东“弱者活该”的说法:太频繁“不杀不行”)

  看到字节跳动要全网搜索的消息,王冬一点也不意外。因为在今日头条搜索正式上线前半个多月,王东公司的网站就被一个名为“bytespider”的爬虫侵扰。

  王冬在第三方信息评价平台做SEO(Search Engine Optimization)。今年7月,他突然发现公司的网站经常打不开,网页加载极慢,有时甚至直接瘫痪。经过一系列的排查,王东在服务器日志中发现了bytespider爬虫的踪迹。

  王冬发现,爬虫一天的爬行频率达到几百万次,高达几千万次,服务器带宽负载飙升至100%,爬虫不遵守网站的robots协议时爬行。通过爬虫的IP地址查询,王东河团队确认该爬虫为字节跳动搜索爬虫。

  受害的不仅仅是王冬。他从CSDN、V2EX等技术论坛了解到,被爬虫暴力抓拍的人还是很多的。不少网友直接表示“太频繁”、“不杀”、“直接封杀”。魏立超在某互联网社区平台工作,也被bytespider暴力*敏*感*词*。他还试图在互联网上寻求帮助。10月24日,类似事件被微博大V曝光,一时间在互联网科技圈引起热议。

  但让魏立超感到不寒而栗的是,网上有句话叫“弱者活该”——“被今日头条搜索引擎抓取应该是一种荣幸,说明你的内容有价值。” “今天头条免费你做性能测试,如果你网站随便被搜索引擎抓到,那技术就可以下岗了。”

  由于无法忍受的扰动,给公司造成了重大损失,无奈之下,王冬、魏立超等网站业主不得不屏蔽爬虫IP的所有频段。

  对此,字节跳动回应《中国企业家》称,“网络报道不实,目前今日头条搜索有反馈机制。网站因为爬​​虫受到影响,可以直接通过邮件反馈处理。”

  自从字节跳动开始搜索以来,网络上一直有网站主播抱怨他们的爬虫过于暴力。到今年10月底,网站的投诉达到了一个高峰。不平衡。

  野蛮爬行者

  爬虫是网络爬虫的缩写。它是按照一定的规则自动抓取万维网上信息的程序或脚本。方便用户搜索。

  一般来说,在互联网技术圈,数据抓取是很正常的事情。通过爬虫抓取网站内容是搜索引擎积累数据的必要前提。此外,部分数据分析和数据采集功能也依赖爬虫技术。

  但是爬虫爬行也有一些社会规则或者君子协议,比如机器人协议。robots协议由网站的所有者设置。网站 会规定爬虫引擎可以抓取哪些内容数据,禁止哪些内容数据,尤其是涉及用户数据等隐私信息时。

  但是,王冬发现bytespider的特点是不符合robots协议,爬行频率太高。从技术社区了解到,爬虫就是访问服务器内容的过程。任何访问都会占用服务器的响应资源。一旦瞬时访问压力超过该级别,就会影响网站的稳定性。为了维护整个互联网生态,爬虫所有者会使用一定的策略来控制爬虫访问的速度和总量。

  因此,有技术人员认为,“应该是字节跳动本身在控制爬虫频率上存在问题”。

  

  其实对于王冬这样做SEO的人来说,他们的主要目标就是希望自己的家网站能够在主流搜索引擎的搜索结果中排名第一。“欢迎百度、搜狗、360等搜索引擎和收录等搜索引擎的标准抓取,但是bytespider直接瘫痪了网站,这也造成了网站的流量也损失了很多在那段时间里。”

  令王冬困扰的是,字节跳动搜索引擎并没有给他们带来多少新流量,但也给公司带来了不小的损失,影响了用户的正常访问。

  王冬想知道,为什么字节跳动没能控制爬虫的爬行频率?

  业内资深人士认为,大致有两种可能。一种可能是字节跳动为了在短时间内快速扩大搜索规模,主观上进行恶意爬取;二是目前字节跳动搜索爬虫策略不完善,客观结果导致爬行过度。

  “考虑到今日头条刚开始发展的时候,他们在抓取内容时完全不顾版权和内容方的抗议,也不排除主观行为。但我认为字节跳动现在是一家大公司。至于主观上这样做。” 上述业内资深人士是这样推断的。

  也有互联网行业资深人士认为,“这个没那么复杂,只是具体的工作团队太粗糙,项目仓促上线,来不及动态调整逻辑算法,有可能主观恶的程度很低。”

  然而,不顾主观出发点,字节跳动为了快速发展搜索,派出爬虫猛烈爬行,不遵守既定规则,给中小微造成了客观损失和困扰网站大师。

  关于网络上流传的“弱者活该”的说法。技术人员显然不同意。他认为,“如果自身的抗风险能力不强,把问题推给小网站就太偏了。这个尺度的爬取频率不在小网站的正常考虑范围之内” @> ,对于搜索引擎爬虫的过度抓取,大网站肯定会有很好的应对策略。毕竟有这么多技术,但是很多小网站可能没有专门的技术人员,但是租用服务器,采用一些是正常的对于一个开源网站建设程序没有能力应对。”

  然而,一个小网站大师抱怨说,爬虫“一天早上向网站发出了46万个请求”。上述技术人员认为:“从个人经验来看,这个请求频率一定是过大了,高了,不知道是不是恶意的。网站瘫痪了,一定是不幸。”

  内容战

  今年8月10日,字节跳动正式推出网页版通用搜索。爬虫爬行是实现搜索引擎效果的重要环节。

  每次进入一个新领域,字节跳动都有一套惯用的玩法,要么直接花钱收购该领域的公司,要么聘请该领域的专业人士。例如,2017年11月,收购中国企业打造的海外音乐短视频平台musical.ly,提升短视频业务;2019年5月,收购教育培训平台清北网校,加强在线教育业务等。

  事实上,字节跳动早就布局了搜索领域。早在2014年,百度搜索框架副技术总监杨振元就被张一鸣挖到今日头条,在那里他带头做广告,推荐了两项核心系统升级。

  此外,前百度搜索部首席架构师朱文嘉、前百度美国深度学习实验室青年科学家李磊等百度重要人才,都被张一鸣挖到今日头条。今年3月,字节跳动聘请了原360搜索产品负责人,开始搜索商业化。

  此外,为了拓展搜索内容,字节跳动也在通过收购完善内容库,比如全资收购沪东百科。截至8月27日,沪东百科在董事、经理、监事三个方面发生了全面变化;投资者、法定代表人。原创始团队全部退出,由字节跳动全资拥有。

  虽然我们在人才和技术上都做好了充分的准备,但对于搜索业务而言,搜索引擎生态系统的建立并非一蹴而就。百度和搜狗都经历了多年的发展和积累。搜索内容库是搜索技术发挥实力的前提,否则搜索引擎将是水源。为了获取尽可能多的内容,这可能是字节跳动采用蛮力爬取的原因之一。

  甚至,为了抓取更多的内容,往往“越界”。字节跳动也陷入了诉讼。今年4月,百度将字节跳动诉至北京市海淀区人民*敏*感*词*,要求其检索书面诉状。

  据百度称,今日头条盗取了大量百度“TOP1”搜索产品结果。百度要求字节跳动立即停止侵权,赔偿相关经济损失和合理费用共计9000万元,并在其APP和网站@连续30天保留。>首页道歉。除了民事诉讼,百度还同时向*敏*感*词*提出了禁止行为保全的申请。

  根据百度为媒体提供的公开案例,在字节跳动旗下今日头条APP中搜索“1立方厘米水等于多少升”的问题时,嵌入了第一个搜索结果加上“从百度抄袭”字样,而且这个字是百度提前打的防伪标志,防止TOP1搜索结果被抄袭。

  

  有趣的是,同日,字节跳动还发声明称,百度并未获得抖音的授权,并在“简单搜”APP热榜栏目设置了抖音栏目由 抖音 开发和运营。@抖音盗取视频,百度通过技术手段抹去抖音的水印。抖音要求百度立即停止侵权,赔偿9000万元,并连续30天在百度首页道歉。

  由于字节跳动和百度在商业模式和商业逻辑上相似,双方通过流量换取广告业务收入。过去几年,百度一直被视为最有可能被字节跳动颠覆的公司。

  双方的战争即将爆发。为了对抗百度,马东敏今年亲自出手频频出击。先后投资有赞、开书说书、奇毛小说、知乎、郭贝壳等多个内容服务项目。其背后的战略意图是丰富内容信息流。

  以知乎为例,知乎全站问答将以智能小程序的形式集成到百度APP中。以搜索起家的百度宣布,将着力打造“搜索+信息流”两大流量引擎和“百家号+智能小程序”两大生态,搭建壁垒。

  一位互联网TMT领域的投资人告诉《中国企业家》,“百度的清醒和攻击,让字节跳动获取内容越来越难。此外,字节跳动的攻击也引起了其他互联网巨头的注意。腾讯要求抖音禁止王者荣耀等腾讯游戏视频。业内一些内容社区将字节跳动视为竞争对手,不会轻易为其开放内容。”

  面对对手搭建的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更加强烈,这直接体现在搜索爬虫的猛烈爬行上。

  事实上,在某种程度上,王冬等网站主播的经历,也和2015年左右头条APP出现时各大内容版权方的经历是一样的。 当时为了获取内容为扩大信息流通市场,今日头条未经内容著作权人许可,擅自从著作权人手中抢夺了大量内容进行转载和传播。结果,无数的版权问题被提交到法庭,并引发了无数的*敏*感*词*。版权纠纷。

  当字节跳动切入全网搜索时,历史似乎在内容爬取上重演。

  不可阻挡的增长

  在如今的互联网舞台上,不仅是百度,其他任何巨头都不敢小看字节跳动和张一鸣。

  2012年成立7年来,张一鸣带领今日头条在移动图文信息市场站稳了脚跟,并成功推出了抖音短视频应用。截至2019年7月,抖音的DAU(日本活跃用户)已达到3.2亿。

  依托今日头条和抖音两大流量池,字节跳动不断将触角延伸至社交、游戏、电商、教育等领域。其所有产品在全球已达到 7 亿 DAU。超过15亿。字节跳动在各个领域冲击着原有的互联网巨头。

  在过去的七年里,字节跳动的员工人数已经超过了 50,000 人。在此前的媒体报道中,字节跳动曾被描述为一家APP工厂。通过技术、获客、商业化三个核心部门,不断复制各个领域的成功产品经验,进行AB测试。,快速迭代。

  在字节跳动快速扩张的过程中,由于手段苛刻,外界议论纷纷。

  在给外界施加压力的同时,咄咄逼人的打法也对内在产生影响。“字节跳动内部迭代速度快,高速增长目标的企业文化难免会给员工带来高压,高压可能导致仓促或仓促。动作变形,哪怕张一鸣不想做它。” 一位接近字节跳动的人士告诉《中国企业家》。

  该人士继续解释,“字节跳动2019年的营收目标至少是1000亿,压力非常大。今日头条主力APP的增长基本停滞,今日头条在1.@的增长中挣扎求生> 2亿DAU,瓶颈期,抖音及其海外版Tik Tok成为重要的增长引擎。监管政策,充满不确定性。”

  11月4日,路透社援引一位不愿透露姓名的知*敏*感*词*士的话报道称,美国政府已对字节跳动收购该国社交媒体应用music.ly一事启动国家安全调查。美国外国投资委员会(CFIUS)已开始审查此次收购,该委员会负责审查外国收购是否构成潜在的国家安全风险。与此同时,Facebook 正在提高警惕,并将其列为竞争对手。

  此外,据《LatePost》报道,在字节跳动内部举行的 6-7 月 CEO 面对面会议上,张一鸣表示,“如果不扩大搜索场景和优质内容,可能只有 40今日头条增长百万。DAU。”

  为了保持字节跳动的增长势头,搜索引擎作为一种行之有效的、成熟的、健康的商业模式,已经成为今日头条拓展业务增长的重要业务之一。

  国内搜索市场主要有三大玩家:百度、360搜索和搜狗搜索。据StatCounter Global Stats统计,截至2019年7月,百度占据中国搜索引擎平台市场76. 42%的份额。字节跳动打造的全球搜索将在多大程度上影响搜索市场的份额,目前还不得而知。

  搜索和智能推荐都是获取信息的方式。对于用户来说,搜索成本高,但内容准确度也高;推荐成本低,内容准确率相对较低。为了满足用户对信息精准获取和广告主精准投放的需求,获得更多用户和商业变现机会,两种模式正在加速融合。

  “搜索+信息流的结合目前似乎是更好的方式。目前百度和字节跳动都从不同的起点冲向这个目标。但是从搜索到信息流,从信息流到搜索,这两个后者的难度不同,后者更难,搜索太复杂了。” 一位业内资深人士告诉《中国企业家》。

  虽然影响搜索引擎成败的因素很多,但很明显,字节跳动搜索爬虫的频繁爬取和不遵守行业规则,给很多网站站长留下了不好的印象。

  目前,bytespider搜索爬虫bytespider还在魏立超的黑名单上,短期内不会解封。他希望字节跳动能够按照市场规律和准则做事,共同保护网站内容生态。

  但面对字节跳动可能带来的潜在流量诱惑,并非所有人都坚定。王冬告诉《华商》,“封杀IP是不得已的办法,解封后只能看到搜索引擎市场份额的变化。”

  (应受访者要求,文中王冬、魏立超均为化名)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线