在线抓取网页( 百度搜藏Baiduspider-favo百度联盟-cpro商务搜索Baiduspider)

优采云发布时间: 2021-11-15 23:01

　　在线抓取网页(

百度搜藏Baiduspider-favo百度联盟-cpro商务搜索Baiduspider)

　　百度蜘蛛蜘蛛抓取网页介绍

　　1.什么是百度蜘蛛

　　百度蜘蛛是百度搜索引擎的自动程序。它的功能是访问互联网上的网页，并建立索引数据库，以便用户在百度搜索引擎上搜索您的网页。

　　2.百度蜘蛛的用户代理是什么？

　　百度产品使用不同的用户代理：

　　产品名称

　　对应user-agent

　　无线搜索

　　百度蜘蛛

　　图片搜索

　　百度蜘蛛图片

　　视频搜索

　　百度蜘蛛视频

　　新闻搜索

　　百度蜘蛛新闻

　　百度采集

　　百度蜘蛛最爱

　　百度联盟

　　百度蜘蛛-cpro

　　业务搜索

　　百度蜘蛛广告

　　网络和其他搜索

　　百度蜘蛛

　　3.百度蜘蛛对网站服务器造成的访问压力是什么？

　　为了对目标资源取得更好的检索效果，百度蜘蛛需要对您的网站保持一定的抓取量。我们尽量不对网站施加不合理的负担，会根据服务器容量、网站质量、网站更新等综合因素进行调整。如果您认为百度蜘蛛的访问行为存在不合理的情况，您可以向反馈中心反馈。

　　4.为什么百度蜘蛛老是爬我的网站？

　　百度蜘蛛会持续抓取您网站上新生成或不断更新的页面。此外，您还可以在网站访问日志中查看百度蜘蛛的访问是否正常，防止有人恶意冒充百度蜘蛛频繁抓取您的网站。如果您发现百度蜘蛛异常抓取您的网站，请通过反馈中心反馈给我们，并尽量提供百度蜘蛛对您网站的访问日志，以便我们进行跟踪。

　　5.如何判断是否冒充百度蜘蛛爬取？

　　建议您使用DNS反向检查的方式来判断爬取源的IP是否属于百度。不同平台的验证方法也不同。比如linux/windows/os三个平台下的验证方法如下：

　　5.1 在Linux平台下，可以使用hostip命令解密ip来判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp。如果不是 *. 或者*.baidu.jp，都是假的。

　　$host123.125.66.120

　　120.66.125.123.in-addr.arpadomainnamepointer

　　.

　　主机119.63.195.254

　　254.195.63.119.in-addr.arpadomainnamepointer

　　百度Mobaider-119-63-195-254.crawl.baidu.jp。

　　5.2 windows平台或IBMOS/2平台下，可以使用nslookupip命令解密ip，判断是否来自百度蜘蛛。打开命令处理器，输入nslookupxxx.xxx.xxx.xxx（IP地址）解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp，而不是 *. 或者 *.baidu.jp 是冒充的。

　　5.3 在macos平台下，可以使用dig命令解密ip来判断是否来自百度蜘蛛。打开命令处理器，输入digxxx.xxx.xxx.xxx（IP地址）解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp，而不是 *. 或者 *.baidu.jp 是冒充的。

　　6.我不希望我的网站被百度蜘蛛访问，我该怎么办？

　　百度蜘蛛符合互联网机器人协议。您可以使用robots.txt文件完全禁止百度蜘蛛访问您的网站，或者禁止百度蜘蛛访问您的网站上的某些文件。注意：如果百度蜘蛛被禁止访问您的网站，您的网站上的网页将无法在百度搜索引擎和百度提供搜索引擎服务的所有搜索引擎中搜索到。robots.txt的写法请参考我们的介绍：robots.txt的写法

　　您可以根据每个产品的不同用户代理设置不同的抓取规则。如果要完全禁止百度所有产品收录，可以直接设置Baiduspider禁止抓取。

　　以下robots实现禁止所有来自百度的抓取：

　　用户代理：百度蜘蛛

　　不允许：/

　　以下robots实现禁止所有来自百度的抓取，但允许图片搜索抓取/image/目录：

　　用户代理：百度蜘蛛

　　不允许：/

　　用户代理：Baiduspider-image

　　允许：/图像/

　　请注意：Baiduspider-cpro 抓取的网页不会被索引，但会执行与客户约定的操作。因此，不遵守机器人协议。如果Baiduspider-cpro给您带来麻烦，请联系我们。

　　百度蜘蛛广告抓取的网页不会被索引，但会执行与客户约定的操作。因此，不遵守机器人协议。如果百度蜘蛛广告给您带来麻烦，请联系您的客服专员。

　　7.为什么我的网站里加了robots.txt，百度上还是能搜到？

　　因为搜索引擎索引数据库的更新需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页，但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。另请检查您的机器人是否配置正确。

　　如果收录急需您的拒绝，您也可以通过反馈中心请求处理。

　　8.我希望我的网站内容被百度索引但不保存快照。我该怎么办？

　　百度蜘蛛符合互联网元机器人协议。您可以使用网页元设置使百度显示仅索引网页，而不在搜索结果中显示网页快照。

　　和robots的更新一样，更新搜索引擎索引库也是需要时间的，所以虽然你在网页中通过meta禁用了百度在搜索结果中显示页面的快照，但是如果网页索引已经在百度搜索引擎数据库信息，可能需要两到四个星期才能在线生效。

　　9.百度蜘蛛爬网导致带宽拥塞？

　　百度蜘蛛的正常抓取不会阻塞你的网站带宽。这种现象可能是有人冒充百度蜘蛛恶意抓取造成的。如果您发现名为百度蜘蛛的代理正在爬行导致带宽拥塞，请尽快与我们联系。您可以将信息反馈到反馈中心，如果您能提供您在此期间的网站访问日志，将更有利于我们的分析

0

2021-11-15

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页( 百度搜藏Baiduspider-favo百度联盟-cpro商务搜索Baiduspider)

0 个评论

发起人