网页css js 抓取助手( JS、CSS文件被蜘蛛抓取的频率特别高,你们怎么看?)

优采云 发布时间: 2022-03-02 12:14

  网页css js 抓取助手(

JS、CSS文件被蜘蛛抓取的频率特别高,你们怎么看?)

  

  很多 网站 正在查看日志,

  你会发现JS和CSS文件被蜘蛛爬取的频率特别高。

  于是有人考虑阻止蜘蛛抓取robots.txt中的js和css文件,

  将蜘蛛时间节省到其他页面。

  国平老师认为,屏蔽这种文件不会对网站造成不良影响,反而可以促进其他页面的收录;

  但同时也有很多人认为屏蔽这两个文件很容易被搜索引擎判断为网站作弊。

  元芳,你怎么看?

  福威 说道:

  以下说法值得商榷:

  “蜘蛛爬取网站的时间是确定的,如果某个文件被限制爬取,它将有更多时间爬取其他网页”

  如果没有,则根本没有必要阻止 CSS 和 JS。

  如果是真的,那么需要屏蔽的不仅仅是 CSS 和 JS。许多没有意义的文件值得阻止。

  因此,上述论点值得更多讨论。

  张立波说:

  我觉得没必要屏蔽,因为搜索引擎会知道哪些是JS,CSS,哪些是网页文件。爬js和css的爬虫应该不会影响网页的爬取频率。

  至于搜索引擎爬js和css,可能和snapshot有关,因为网站的页面大部分都是用div+css搭建的,如果没有css页面就惨了。

  所以不排除搜索引擎试图解释JS和CSS文件来丰富网页内容,让搜索更加精准。

  为了使搜索结果更准确,这是个人猜测,但可能是真正的原因。

  周围的王说:

  就前面的操作流程来说,我个人并没有屏蔽过js和css文件。

  关于网站的性能,只推荐js和css分开集成,css放在头,js放在最后,防止网站加载时出现混乱和阻塞。

  目前似乎没有任何区域的信息说js和css必须被屏蔽。

  粗略地说,遵循两点就足够了:

  1:整合css文件,通过压缩缩小大小,放在头部;

  2:整合js文件,通过压缩缩小体积,放在最后;

  在其他代码区,尽量不要有单独的css和js代码,这样更符合标准。

  冯寒说道:

  经过测试和跟踪数据表明:

  1> 被屏蔽的JS/css文件仍然会被百度和google抓取

  2> 跟踪观察屏蔽后其他页面类型蜘蛛的爬取量,发现并没有增加

  3>如果网站大部分js/css文件收录较多的url,可以解封,蜘蛛在爬js/css文件的同时可以爬取里面的链接

  4>如果网站大部分js/css文件基本都是code之类的,屏蔽也可以,没有明显的优点,也没有发现缺点。

  王丹说:

  我屏蔽了,傅伟老师发现你回答很多问题都很“谨慎”。

  回答的时候可以添加一些自己或者朋友的正常操作方法。

  我记得听傅伟老师说他上课要被堵了。

  程大虾说道:

  一个搜索引擎可以爬取的页面量远大于我们拥有的数据量网站,所以爬css还是JS都无所谓

  陈福山 说:

  现在搜索引擎可以识别 JS CSS 文件,它们是否被阻止并不重要。

  只要你的网站压力不受限,服务器还不算太差。

  屏幕与否无关紧要。

  我的网站检测JS N收录照常,快照照常更新

  胡小义 说:

  这取决于页数,如果页数小到可以被任何蜘蛛任意爬取,那么这是没有必要的。

  相反,如果网页数量太大,蜘蛛无法抓取,则需要删除 Nofollow,而 Robots 会删除一些东西。

  陈超 说道:

  在我看来:

  1、以后css文件会成为搜索引擎判断一个页面的参考因素;

  2、也许现在搜索引擎可以简单地使用 css 文件来理解页面结构。

  小龙 说道:

  假设这句话是真的:“蜘蛛爬取网站的时间是确定的。如果某个文件被限制爬取,它就有更多的时间爬取其他网页”

  对于较大的 网站,仍然需要阻止 CSS 和 JS 文件。

  对于中小网站,完全没有必要。

  吴兴说:

  JS和css在网页头部设置了Cache-Control,不需要在Robots.txt中添加。

  刘先森说:

  你先尝试阻塞一个部分,看看网站的整体情况和日志分析。

  不过建议等12月百度调整后再试。

  于冰妍 说道:

  屏蔽页面对于搜索引擎来说是很正常的事情,否则就不会有Robots.txt等用户制定的爬取规则。

  本文提供的信息仅供参考,请自行查看。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线