搜索指定网站内容(robot.txt文件大部分的网站收录问题都是因为被robot)
优采云 发布时间: 2022-01-20 17:16搜索指定网站内容(robot.txt文件大部分的网站收录问题都是因为被robot)
机器人.txt 文件
大部分网站收录问题都是网站收录提交被robot.txt文件拦截导致的。
robots.txt 是一个纯文本文件,网站管理员可以在其中声明他们不想被机器人访问的 网站 部分,或者指定搜索引擎仅 收录 指定内容。
当一个搜索机器人(有些被称为搜索蜘蛛)访问一个站点时,它会首先检查该站点的根目录中是否存在 robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,搜索机器人会跟随该链接。
格式:
1.用户代理:
用于指定搜索引擎的名称,如google是User-agent:Googlebot,*代表所有搜索引擎
2.不允许:
表示禁止蜘蛛访问的文件
用户代理: *
不允许:
表示:允许所有搜索引擎访问网站下的所有内容。
用户代理: *
不允许: /
表示:禁止所有搜索引擎访问网站下的所有网页。
用户代理: *
禁止:/cgi-bin/
表示:禁止所有搜索引擎进入网站的cgi-bin目录及其下所有子目录。请注意,必须单独声明每个目录。
用户代理:Roverdog
不允许: /
表示:禁止 Roverdog 访问 网站 上的任何文件。
用户代理:Googlebot
禁止:cheese.htm
表示:禁止 Google 的 Googlebot 访问其 网站 下的 cheese.htm 文件。
3.评论
以“#”开头的行被视为注释,注释需要单独一行
不允许:bob #comment 错误
4.允许行
允许线尚未常用。对于网站地图,直接写成Sitemap:/sitemap.xml
编辑模式:
在 UNIX 模式下编辑 robots.txt 文件并以 ASCII 格式上传。显然不是所有的 FTP 客户端软件都能将文件格式无缝转换为 UNIX 命令行终端,因此在编辑 robots.txt 文件时,请确保您的文本编辑器处于 UNIX 模式。
或者使用爱站等工具生成机器人,直接粘贴复制到网站后台。
检查机器人是否生效:
检测百度站长后台机器人
两个机器人和nofollow有什么区别
机器人仅用于站点内链接。收录 禁止蜘蛛爬行;
nofollow 的链接蜘蛛仍然可以收录,但它不会传递权重。一般用于站外链接或公司电话。地址的页面有助于集中网站的权重。
三 网站 机器人误堵后怎么办
1.解封robots,然后去百度站长后台检测和更新robots。
2.百度站长后台爬取检测,此时显示爬取失败。通常,机器人在更改后不会立即生效。需要几天时间。您可以点击爬取数次触发爬虫爬取网站。
3.百度站长后台抓取频率,申请增加抓取频率。
4.百度反馈中心,反馈是误操作造成的。
5.百度站长后台链接提交,设置数据主动推送(实时)。
6.更新站点地图网站地图,重新提交到百度,每天手动提交一次。
四.新站点机器人设置
对于已经在线但尚未在机器人中设置的新站点
用户代理: *
不允许:/
防止蜘蛛访问
元标记
meta robots标签是页面头部的一种元标签,用于指示搜索引擎禁止索引(收录)该页面的内容。
如何编写元机器人标签:
标签的含义: 禁止所有搜索引擎对该页面进行索引,并禁止点击该页面上的链接。
Noindex:搜索引擎不索引该页面(可以被抓取,但不会出现在搜索结果中)。
Nofollow:搜索引擎不会通过该页面的链接索引继续搜索其他页面。
=“机器人”内容=“noindex”>
标签的含义:禁止对该页面的索引,但允许蜘蛛跟踪页面上的链接,也可以传递权重。
带有 noindex meta robots 标签的页面将被抓取,但不会被编入索引,这意味着该页面 URL 不会出现在搜索结果中,这与 robots 文件不同。
meta robots标签的作用:
1、不希望 网站 被 收录 与 meta robots 标签一起使用,这会禁止搜索引擎对该页面进行索引,并禁止在页面上跟踪链接。
2、这个页面禁止被索引,但是允许蜘蛛跟随页面链接,也可以传递权重。
meta robots标签不被很多搜索引擎支持,只有少数搜索引擎能够识别它并通过给定的值进行爬取。因此,建议使用 robots.txt 文件来限制抓取。
违规域名
有的站长会选择购买具有一定注册年份的域名,但是需要注意这些域名是否被搜索引擎处罚过。如果是这样,网站也是很困难的收录。
建议在这种情况下,站长可以查看网站日志。如果爬虫不爬,后天找站长提交就行了。如果爬虫有爬取记录,但是没有收录,可能是域名有问题。当然,不排除网站存在一定的问题。比如镜像网站等。
如何制作网站收录
熊账号后台提交:熊账号对原创文章的收录要求比较高,但是首页的收录通常很快,而且一般第二天就可以看到。影响。而且熊爪号会显示不是收录的原因,方便站长整改。