网页抓取加密html( 新的正确的识别Baiduspider移动ua的方法！(一))

优采云发布时间: 2021-09-22 08:07

　　网页抓取加密html(

新的正确的识别Baiduspider移动ua的方法！(一))

　　建立一个符合搜索引擎优化特征的网站友好抓取

　　爬行和收录是网站操作和优化的第一步。符合SEO特征的站点应该具有友好爬行的特征。以下是构建符合SEO特征的网站友好爬网的具体内容

　　请注意由“+”标识的网站！您需要修改标识方法。识别百度pider移动UA的新正确方法如下：

　　1.通过关键词“Android”或“mobile”进行识别，并将其判断为移动访问或捕获

　　2.via关键词“Baiduspider”/2.0，判定为百度爬虫

　　此外，需要强调的是，对于机器人，如果禁用的代理是Baiduspider，它将同时在PC和移动设备上生效。也就是说，无论是PC还是移动百度pider都不会抓取被阻止的对象。强调这一点的原因是，一些代码适应网站（相同的URL，当PC UA打开时，它是PC页面，当移动UA打开时，它是移动页面）希望通过设置机器人的代理阻止来实现仅允许移动Baiduspider抓取的目的。然而，这种方法是非常不可取的，因为PC和移动Baiduspider代理都是Baiduspider，这也是SEO优化需要考虑的

　　如何识别百度蜘蛛

　　百度蜘蛛是站长的主宾，但我们曾经遇到过站长的问题：我们如何判断疯狂抓取我们网站内容的蜘蛛是否是百度？事实上，站长可以通过DNS反检查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法不同。例如，linux/Windows/OS下的验证方法如下：

　　1、在Linux平台上，您可以使用host IP命令反转IP，以确定抓取是否来自百度pider。百度风笛的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp，它是冒充的

　　2、在windows平台或IBM OS/2平台上，可以使用NSLOOKUP IP命令反转IP，以确定抓取是否来自Baiduspider。打开命令处理器，输入NSLOOKUP xxx.xxx.xxx.xxx（IP地址）解析IP以确定爬网是否来自百度pider。百度pider的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp，这是一种模仿

　　@在Mac OS平台上，您可以使用dig命令反转IP地址，以确定爬网是否来自百度pider。打开命令处理器，输入dig xxx.xxx.xxx.xxx（IP地址）解析IP以确定是否从百度pider获取。百度pider的主机名以*格式命名。或*。百度.jp。如果不是*。或*。Baidu.jp，这是一种模仿

　　什么是百度pider IP

　　即使很多站长知道如何判断百度蜘蛛，他们也会继续问“百度蜘蛛的IP是多少”。我们理解站长的意思。我们想把百度蜘蛛的IP加入白名单。我们只允许白名单下的IP捕获网站以避免被采集和其他行为

　　但我们不建议站长这样做。虽然百度蜘蛛确实有一个IP池，其中真正的IP是交换的，但我们不能保证IP池不会作为一个整体改变。因此，我们建议站长经常阅读日志，发现恶意蜘蛛后将其列入黑名单，以确保百度的正常捕获

　　同时，我们再次强调，通过IP区分百度蜘蛛的属性是非常荒谬的。所谓的“沙盒蜘蛛”、“降能蜘蛛”等根本不存在。SEO从业者需要记住

　　机器人书写法

　　机器人是网站与蜘蛛交流的重要渠道。该站点通过robots文件声明搜索引擎不希望成为收录的网站部分，或者指定搜索引擎只有收录特定部分。请注意，如果您的网站收录您不想被收录搜索的内容，您只需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建robots.txt文件，这是搜索引擎优化需要掌握的基本技能

　　Robots文件通常放在根目录中，并收录一个或多个记录。这些记录以空行分隔（Cr、Cr/NL或NL作为终止符）。每条记录的格式如下：

　　“：”

　　在此文件中，可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行user agent开始，然后是几行disallow和allow。详情如下:

　　用户代理：此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中，如果存在多个用户代理记录，则表示多个机器人将受到“robots.TXT”的限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则对任何机器人都有效。在“robots.TXT”文件中，只能有一条记录，如“user agent:*”。如果在“robots.TXT”文件中添加了“user agent:somebot”和几个不允许和允许行，“somebot”名称仅受“user agent:somebot”后面的不允许和允许行的限制

　　不允许：此项的值用于描述不希望访问的一组URL。此值可以是完整路径或路径的非空前缀。机器人将不会访问以disallow item值开头的URL。例如，“disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“disallow:/help/”允许机器人访问/help.html、/helpabc.html和/help/index.html。“Disallow:”表示允许机器人访问此站点的所有URL网站. “/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”不存在或是空文件，网站对所有搜索引擎robots打开

　　允许：此项的值用于描述要访问的一组URL。与“不允许”类似，此值可以是完整路径或路径的前缀。以值allow开头的URL允许机器人访问。例如，“允许：/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。默认情况下，网站的所有URL都是允许的，因此allow通常与disallow一起使用，以允许访问某些网页并禁止访问所有其他URL

　　使用“*”和“$”：Baiduspider支持使用通配符“*”和“$”来模糊匹配URL

　　“*”匹配0个或多个任意字符

　　“$”与行终止符匹配

　　最后，需要注意的是，百度将严格遵守机器人的相关协议。请注意区分您不希望被捕获的目录或收录. 百度将准确地将用robots编写的文件与您不希望被捕获的目录进行匹配，收录或robots协议将不生效

　　robots需求使用表中robots.txt的写入方法是什么

　　robots.txt的编写方法是什么

　　上面提到了这么多理论，有没有一个简单的比较表来告诉我如何在什么需求场景下编写robots文件？是的：

　　禁止百度收录的其他方法，机器人除外

　　Meta robots标记是页面头部的标记之一，也是禁止搜索引擎索引页面内容的指令。目前，百度只支持nofollow和noarchive

　　禁止搜索引擎跟踪此页面上的链接

　　如果您不希望搜索引擎跟踪此页面上的链接，也不希望传递链接的权重，请将此元标记放在页面的以下部分：

　　如果你不想让百度跟踪某个特定的链接，并且百度也支持更精确的控制，请直接在链接上写上这个标记：sign

　　若要允许其他搜索引擎跟踪，但仅阻止百度跟踪您网页的链接，请将此元标记放在网页部分：

　　Noarchive：防止搜索引擎在搜索结果中显示网页快照

　　要防止所有搜索引擎显示您的网站快照，请将此元标记放置在页面的部分：

　　要允许其他搜索引擎显示快照，但仅阻止百度显示快照，请使用以下标签：

　　注意：此标志仅禁止百度显示页面快照。百度将继续为页面建立索引，并在搜索结果中显示页面摘要

　　使用机器人巧妙地避开蜘蛛黑洞

　　对于百度搜索引擎来说，蜘蛛黑洞是指网站以极低的成本创建大量参数过多、内容相似但URL不同的动态URL，就像一个无限圆形“黑洞”，诱捕蜘蛛。蜘蛛会浪费大量资源并抓取无效网页

　　例如，很多网站都有过滤功能，通过过滤功能生成的网页经常被搜索引擎抓取，其中很大一部分是检索价值和质量较低的网页。例如，“以500-1000之间的价格租房”，首先网站（包括实际情况）基本上没有相关资源。其次，站内用户和搜索引擎用户没有这种检索习惯。这类网页被搜索引擎抓取，搜索引擎只能占据网站有价值的抓取配额。如何避免这种情况

　　让我们以北京美团网为例，看看美团网是如何使用机器人巧妙地避开这个蜘蛛黑洞的：

　　对于普通的过滤结果

0

2021-09-22

网页抓取加密html

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取加密html( 新的正确的识别Baiduspider移动ua的方法！(一))

0 个评论

发起人

AI时代内容工厂

网页抓取 加密html( 新的正确的识别Baiduspider移动ua的方法！(一))

0 个评论

发起人

网页抓取加密html( 新的正确的识别Baiduspider移动ua的方法！(一))