搜索指定网站内容(robots是站点与spider沟通的重要渠道,站点通过robots文件声明)

优采云 发布时间: 2021-12-15 00:30

  搜索指定网站内容(robots是站点与spider沟通的重要渠道,站点通过robots文件声明)

  机器人是网站与蜘蛛交流的重要渠道。本站通过robots文件声明网站中不想被搜索引擎收录或指定搜索引擎搜索到的部分仅为收录特定部分。请注意,只有当您的网站收录您不想被收录搜索的内容时,您才需要使用robots.txt文件。如果您想要搜索引擎收录网站 上的所有内容,请不要创建robots.txt 文件。为防止站长在设置robots文件时出现,百度站长平台特推出robots工具。W3Cschool还提供在线robots.txt文件生成工具,帮助站长正确设置robots。

  Robots 文件通常放置在根目录中,并收录一个或多个记录。这些记录由空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下:

  ":"

  可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行。详情如下:

  User-agent:此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。如果您在“robots.txt”文件中添加“User-agent:SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行的限制。

  Disallow:此项的值用于描述您不想访问的一组 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,但不是访问 /help/index.html。“禁止:”表示允许机器人访问网站的所有URL。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”不存在或为空文件,则此网站 对所有搜索引擎机器人开放。

  允许:此项的值用于描述一组您希望访问的 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。

  使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配URL。

  "*" 匹配 0 个或多个任意字符

  "$" 匹配行尾。

  最后需要注意的是:百度将严格遵守robots相关协议,请注意区分您不想被抓取的目录或收录的情况。百度会将robots中写的文件和你不想被爬取的文件与收录的目录进行精确匹配,否则robots协议不会生效。

  

  robots文件是搜索生态中非常重要的一个链接,也是一个非常详细的链接。在网站的操作过程中,很容易让很多站长忽略robots文件的存在,误覆盖或屏蔽所有robots,造成不必要的损失!

  那么如果机器人被误拦截了怎么办?今天,我们请到厦门258网站运营负责人——郑俊伟,跟大家分享一下网站机器人误禁后应该怎么办?

  【案例背景】

  网站开发了 2. 的第 0 版。该技术选择在线开发。为避免搜索引擎抓取开发版,需要技术人员设置Robots禁止处理。2.0版本开发周期为1个月,1个月后迭代网站版本,直接覆盖1.0版本,包括Robots禁文件。2天后,发现流量明显下降。检查收录发现800万收录降为0,关键词降了很多。

  

  

  【加工方法】

  1. 修改Robots的banner为允许,然后在百度站长后台查看和更新​​Robots。

  2. 在百度站长后台爬取检测,此时显示爬取失败,没关系,点击爬取几次触发蜘蛛爬取站点。

  3.百度站长后台抓取频率,申请增加抓取频率。

  4. 百度反馈中心,反馈为误操作所致。

  5. 百度站长后台链接提交处,设置主动数据推送(实时)。

  6.更新站点地图网站地图,重新提交百度,每天手动提交一次。

  以上处理完成后,接下来就是等待了。好在这两天的数据开始慢慢回升,第三天基本恢复正常!

  

  【概括】

  这次事故绝对是运营生涯的失败,总结反思,希望大家避免出现类似问题。

  1. 产品开发一定要避免线上开发,不能省事不搭建开发环境。

  2. 产品迭代必须有过程记录。开发过程中做的设置和处理,哪些不需要发布,哪些必须发布,必须非常清楚。

  3. 时刻关注百度站长后台,关注相关数据变化,从数据变化中及时发现问题

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线