网页抓取 加密html( 新的正确的识别Baiduspider移动ua的方法!(一))
优采云 发布时间: 2021-09-22 08:07网页抓取 加密html(
新的正确的识别Baiduspider移动ua的方法!(一))
建立一个符合搜索引擎优化特征的网站友好抓取
爬行和收录是网站操作和优化的第一步。符合SEO特征的站点应该具有友好爬行的特征。以下是构建符合SEO特征的网站友好爬网的具体内容
请注意由“+”标识的网站!您需要修改标识方法。识别百度pider移动UA的新正确方法如下:
1.通过关键词“Android”或“mobile”进行识别,并将其判断为移动访问或捕获
2.via关键词“Baiduspider”/2.0,判定为百度爬虫
此外,需要强调的是,对于机器人,如果禁用的代理是Baiduspider,它将同时在PC和移动设备上生效。也就是说,无论是PC还是移动百度pider都不会抓取被阻止的对象。强调这一点的原因是,一些代码适应网站(相同的URL,当PC UA打开时,它是PC页面,当移动UA打开时,它是移动页面)希望通过设置机器人的代理阻止来实现仅允许移动Baiduspider抓取的目的。然而,这种方法是非常不可取的,因为PC和移动Baiduspider代理都是Baiduspider,这也是SEO优化需要考虑的
如何识别百度蜘蛛
百度蜘蛛是站长的主宾,但我们曾经遇到过站长的问题:我们如何判断疯狂抓取我们网站内容的蜘蛛是否是百度?事实上,站长可以通过DNS反检查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法不同。例如,linux/Windows/OS下的验证方法如下:
1、在Linux平台上,您可以使用host IP命令反转IP,以确定抓取是否来自百度pider。百度风笛的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp,它是冒充的
2、在windows平台或IBM OS/2平台上,可以使用NSLOOKUP IP命令反转IP,以确定抓取是否来自Baiduspider。打开命令处理器,输入NSLOOKUP xxx.xxx.xxx.xxx(IP地址)解析IP以确定爬网是否来自百度pider。百度pider的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp,这是一种模仿
@在Mac OS平台上,您可以使用dig命令反转IP地址,以确定爬网是否来自百度pider。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地址)解析IP以确定是否从百度pider获取。百度pider的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp,这是一种模仿
什么是百度pider IP
即使很多站长知道如何判断百度蜘蛛,他们也会继续问“百度蜘蛛的IP是多少”。我们理解站长的意思。我们想把百度蜘蛛的IP加入白名单。我们只允许白名单下的IP捕获网站以避免被采集和其他行为
但我们不建议站长这样做。虽然百度蜘蛛确实有一个IP池,其中真正的IP是交换的,但我们不能保证IP池不会作为一个整体改变。因此,我们建议站长经常阅读日志,发现恶意蜘蛛后将其列入黑名单,以确保百度的正常捕获
同时,我们再次强调,通过IP区分百度蜘蛛的属性是非常荒谬的。所谓的“沙盒蜘蛛”、“降能蜘蛛”等根本不存在。SEO从业者需要记住
机器人书写法
机器人是网站与蜘蛛交流的重要渠道。该站点通过robots文件声明搜索引擎不希望成为收录的网站部分,或者指定搜索引擎只有收录特定部分。请注意,如果您的网站收录您不想被收录搜索的内容,您只需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容,请不要创建robots.txt文件,这是搜索引擎优化需要掌握的基本技能
Robots文件通常放在根目录中,并收录一个或多个记录。这些记录以空行分隔(Cr、Cr/NL或NL作为终止符)。每条记录的格式如下:
“:”
在此文件中,可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行user agent开始,然后是几行disallow和allow。详情如下:
用户代理:此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中,如果存在多个用户代理记录,则表示多个机器人将受到“robots.TXT”的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.TXT”文件中,只能有一条记录,如“user agent:*”。如果在“robots.TXT”文件中添加了“user agent:somebot”和几个不允许和允许行,“somebot”名称仅受“user agent:somebot”后面的不允许和允许行的限制
不允许:此项的值用于描述不希望访问的一组URL。此值可以是完整路径或路径的非空前缀。机器人将不会访问以disallow item值开头的URL。例如,“disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“disallow:/help/”允许机器人访问/help.html、/helpabc.html和/help/index.html。“Disallow:”表示允许机器人访问此站点的所有URL网站. “/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”不存在或是空文件,网站对所有搜索引擎robots打开
允许:此项的值用于描述要访问的一组URL。与“不允许”类似,此值可以是完整路径或路径的前缀。以值allow开头的URL允许机器人访问。例如,“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。默认情况下,网站的所有URL都是允许的,因此allow通常与disallow一起使用,以允许访问某些网页并禁止访问所有其他URL
使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配URL
“*”匹配0个或多个任意字符
“$”与行终止符匹配
最后,需要注意的是,百度将严格遵守机器人的相关协议。请注意区分您不希望被捕获的目录或收录. 百度将准确地将用robots编写的文件与您不希望被捕获的目录进行匹配,收录或robots协议将不生效
robots需求使用表中robots.txt的写入方法是什么
robots.txt的编写方法是什么
上面提到了这么多理论,有没有一个简单的比较表来告诉我如何在什么需求场景下编写robots文件?是的:
禁止百度收录的其他方法,机器人除外
Meta robots标记是页面头部的标记之一,也是禁止搜索引擎索引页面内容的指令。目前,百度只支持nofollow和noarchive
禁止搜索引擎跟踪此页面上的链接
如果您不希望搜索引擎跟踪此页面上的链接,也不希望传递链接的权重,请将此元标记放在页面的以下部分:
如果你不想让百度跟踪某个特定的链接,并且百度也支持更精确的控制,请直接在链接上写上这个标记:sign
若要允许其他搜索引擎跟踪,但仅阻止百度跟踪您网页的链接,请将此元标记放在网页部分:
Noarchive:防止搜索引擎在搜索结果中显示网页快照
要防止所有搜索引擎显示您的网站快照,请将此元标记放置在页面的部分:
要允许其他搜索引擎显示快照,但仅阻止百度显示快照,请使用以下标签:
注意:此标志仅禁止百度显示页面快照。百度将继续为页面建立索引,并在搜索结果中显示页面摘要
使用机器人巧妙地避开蜘蛛黑洞
对于百度搜索引擎来说,蜘蛛黑洞是指网站以极低的成本创建大量参数过多、内容相似但URL不同的动态URL,就像一个无限圆形“黑洞”,诱捕蜘蛛。蜘蛛会浪费大量资源并抓取无效网页
例如,很多网站都有过滤功能,通过过滤功能生成的网页经常被搜索引擎抓取,其中很大一部分是检索价值和质量较低的网页。例如,“以500-1000之间的价格租房”,首先网站(包括实际情况)基本上没有相关资源。其次,站内用户和搜索引擎用户没有这种检索习惯。这类网页被搜索引擎抓取,搜索引擎只能占据网站有价值的抓取配额。如何避免这种情况
让我们以北京美团网为例,看看美团网是如何使用机器人巧妙地避开这个蜘蛛黑洞的:
对于普通的过滤结果