网页flash抓取(不少人会问到问到一些常见问题怎么处理?草根把这些问题分享)

优采云 发布时间: 2022-03-15 20:18

  网页flash抓取(不少人会问到问到一些常见问题怎么处理?草根把这些问题分享)

  草根也会经常收到一些seo相关的业务。草根作为seo营销人员之一,经常和一些同行交流,发现很多人会问一些常见的问题。草根将在下面与您分享这些问题。,希望对seoer有帮助!

  

  1.网站的gzip压缩会影响收录和网站的权重吗?

  百度回复:gzip对收录和权重没有影响。对搜索引擎的唯一影响是抓取速度会更快。

  2.js代码弹窗会影响自然排名吗?

  百度回复:任何有利于或有损用户体验的做法,实际上都会影响用户的“投票”行为。而这些投票行为会影响搜索引擎对这个网站的评价算法。因此,弹窗是否弹出并不重要,关键是这种弹窗会给用户带来什么样的影响。

  3.百度会跟踪 JavaScript 链接吗?

  百度回复:分析javascript是很多搜索引擎都在做的事情;同理,分析flash。毕竟用javascript或者flash的网站这么多,却没有意识到自己的做法给搜索引擎的收录和索引带来了麻烦。所以,如果你不希望被搜索引擎搜索到收录,最直接的方法就是写robots文件。

  4.404页面不处理时,会不会影响网站的权重?

  百度回复:搜索出现的无结果页面是对用户最大的伤害,这可能是网站的内容管理不好。

  5.如何处理404页面?

  百度回复:建议统一筛选全站最近的404页面,制作死链接sitetmap文件,登录站长平台,使用死链接工具提交。这种方法最适合减少 404 页面对 网站 的负面影响。

  6.404页面是不是必须先提交才能删除?

  目录里面有很多垃圾标签,已经做了404设置,但是不知道有多少是收录。您可以导出所有垃圾标签页面吗?

  百度回复:检测死链接-蜘蛛一一访问,判断是否为死链接。建议大家主动提交死链接。站长知道自己网站的情况,可以更好的提交。这个工具是为了弥补系统问题。目前我们也在讨论能否引入更简单的工具来帮助站长解决这个问题。

  7.大约404页

  当我们因为变化产生404时,百度需要多长时间才能识别出来?而且需要多次识别才能删除?对于一些还没有做的专题页面,可能会暂时设置为404页面,然后很快就会删除该页面。恢复,但是这些特色页面有的很快就可以恢复,有的要等很久才会成为收录,所以有大新闻的时候,会紧张大话题会是收录@ > 及时。

  百度回复:不会有固定时间。删除时间将根据网页的更新频率和所在频道确定。对于没有完成或者没有作为死链接的页面,尽量不要使用404返回码,希望尽量使用。503的返回码,以便蜘蛛更好的识别。

  8.robots.txt 可以屏蔽百度蜘蛛吗?

  我在robots.txt中设置了禁止百度收录my网站的内容,为什么百度搜索结果里还出现?

  百度回复:如果其他网站链接到你robots.txt文件中禁止收录的页面,那么这些页面可能仍然会出现在百度的搜索结果中,但是你页面上的内容不会被抓取, 索引并显示,并且只有您的相关页面的其他 网站 描述才会显示在百度搜索结果中。

  9.robots解锁爬取后多久生效?

  百度回复:百度发现机器人设置并更新爬取状态,一般7天内。

  10.原创内容无法识别怎么办?

  百度回复:这个,只能说百度的策略不是很完善,我们一直在改进。另外,从用户体验来看,有些转载不一定比原创差。例如,一篇科技原创博文被知名门户网站网站的科技频道转载。如果这种转载保留了原创人的姓名和出处链接,其实对原创人是有利的,因为这样有更好的传播效果。只是国内的再版,很多都是从头到尾的斜线,伤了原创观众。

  11.修改首页元描述会受到处罚吗?

  百度回复:这肯定是想多了。我们鼓励每个人通过元描述写一个 网站 *敏*感*词*。就是修改太频繁了,摘要中可能反馈不及时。

  12.百度对网页标题的长度有限制吗?

  百度回复:这个自然是无限的。很多人喜欢在标题中放很多关键词,以为会全面开花,结果可能适得其反。此原理与设置页面上的超链接数量相同。分得的人越多,每个人分得的就越少。

  13.搜索结果显示的标题与实际标题不一致?

  百度回复:原因比较复杂,需要针对性分析。主要原因可能是标签标题提取失败,系统不得不从其他地方获取一些文本作为标题。此次提取失败的原因包括网页设计(如全flash或ajax)和robots ban(一些重要的网页没有被抓取,但url本身会被保留)。还有一些系统异常会导致类似的现象。此类问题如果不符合一般预期,可以直接提交给网站管理员#。工程师将跟进。

  14.百度指定的网页尺寸是多少?

  百度回复:以前百度显示页面大小时,最大是125K。如果超出此范围,则快照显示不正常。是不是表示页面大小大于125K,会影响搜索引擎或者收录的抓取?页面大小 抓取和搜索引擎之间没有直接关系。但是,我们建议网页(包括代码)不要太大,太大的页面会被抓取截断;并且内容部分不能太大,会被索引截断。当然,fetch truncation 的上限会远大于 index truncation 的上限。

  15.标题长度对网站的权重有多大影响?

  百度回复:就像一个页面的出站链接越多,每个链接的权重越小,标题上的关键词越多,单个关键词的权重就越低。这是非常直观的逻辑。但是,如果为了追求某个关键词的权重而尝试压缩标题的长度,如果真的满足页面的搜索需求,就很难被命中。因此,一般的建议是实事求是,在标题中体现页面的要点。如果你想成为一棵常青树,不要在意一时的seo效果(那很累很烦人),只要让网站的忠实用户受欢迎就行了。

  16.修改页面标题(如添加前缀或后缀)会影响网站的排名吗?

  百度回复:标题是极其重要的内容,大改只会带来大的波动,请谨慎对待页面标题。

  17.在搜索结果页面的“描述”部分,百度如何判断~

  百度对网页“描述”部分的展示来自四个方面:1、页面本身的描述;2、用户当前搜索在页面上的分布比例关键词; 3、 一些百度合作或权威网站评论本站(页面);4、百度会从代码中随机显示(按顺序排列)。不确定哪个陈述更接近事实,或两者兼而有之?对站长有什么好的建议吗?标题通常来自页面。

  百度回复:首页的摘要会来自meta description,普通网页会根据搜索关键词动态提取。

  18.百度是否支持规范属性?

  百度回复:对于多个域名或多个网址,站长有什么办法可以告知百度自己的首选域名或首选地址?百度尚不支持如此复杂的属性。关于首选域或首选地址的给定问题,我们将在内部认真讨论。一般情况下,网站的所有者只要主要宣传一个域名和一定的url模式,通常都会被蜘蛛选择为主域名和主url模式。我们还注意到打印页面等问题。在我们的系统还没有完全解决此类问题之前,建议使用机器人来处理。另外,站长工具平台也没有计划提供这方面的工具。如有新进展,将及时通知。

  19.一个简单明了的问题,百度目前是否支持links的nofollow属性?rel='external nofollow'

  百度回复:百度现在支持nofollow标签。带有nofollow标签的链接,我们将忽略它们的大部分影响。nofollow主要用在不受站长控制的地方,比如用户留言。在这些地方投票不是站长的意志。告诉搜索引擎不要投票给他是合适的。就像zac博客里的一样,请输入关键词、网购推荐等,因为Anchor描述的链接绝对不是zac想要推荐的。如果是正式推荐其他人的链接网站,当然不能使用nofollow。

  20.百度对nofollow标签的支持和谷歌的有什么区别?

  大家都知道google将nofollow标签应用于页面级别和链接级别。而且,谷歌蜘蛛还会按照一定的优先级抓取nofollow标签。请问百度对nofollow的支持是否和google一样?如果不是,有什么区别?

  百度回复:如果您不希望搜索引擎跟踪该页面上的链接并且不传递链接的权重,请将此元标记放在页面部分: ;如果您不希望百度跟踪特定链接,百度也支持更精准的控制,请直接在链接上写下这个标记:登录。 详细说明:不追链接,不传权重。123只起到发现链接的作用,不传递权重。从网站管理员的角度来看,您不应该看到任何区别。

  21.百度能识别JS代码中的链接吗?

  百度回复:我们也希望解析flash和js中的内容。但离理想状态还差得很远。

  22. 百度是否支持通过机器人提交站点地图?

  百度回复:暂无此计划。一般来说,蜘蛛可以处理大多数 网站 数据获取和更新,而无需借助站点地图。

  2 3.option标签中的链接能被蜘蛛抓到吗?

  百度回复:可以提取,效果相当于A标签。

  24.百度能否抓取CSS样式表并识别分析?

  百度回复:百度可以爬取分析CSS。

  25.搜索引擎将如何处理更多图片和flash的页面?

  目前很多页面可能文字不多,图片和flash比较多。对于没有大量文字的页面,搜索引擎能否很好地识别该页面中的资源?

  百度回复:目前正在推一个显示蜘蛛爬取日志的工具,看看是否符合站长的爬取意愿,而对于一些js比较多的网站,假设当前的收录不好,可以尝试减少先用js。

  26.百度蜘蛛现在可以抓取HTML5标签了吗?

  百度回复:百度可以解析HTML5标签。

  27.关于爬虫是否从外部链接抓取被robots.txt屏蔽的网址

  百度回复:只要一个url被robots屏蔽了,baiduspider就不会爬,这是肯定的。即使可以通过外部链接访问链接,我们也不会抓取该页面。

  28.百度是否爬取分析代码中注释掉的内容

  百度回复:在文本提取过程中会忽略html中的评论内容。

  29.搜索引擎在高峰时段抓取大量页面,导致服务器负载问题。但是我不想阻止它爬行,我该怎么办?是否可以在高峰时段向蜘蛛返回 202 状态码,告诉蜘蛛“服务器已接受请求,但尚未处理。”?这会对 网站 产生什么影响?

  百度回复:会延迟百度收录新网页的速度。正常情况下,百度蜘蛛的爬取频率大致与网站新资源产生的速度一致,不会给网站带来太大压力。但是现在网站的结构通常比较复杂,多个url形式可能指向同一个内容,或者会自动生成大量没有检索价值的页面。目前我们发现的问题主要来自于此。建议分析一下爬虫的爬取日志,看它是否爬到了你不想要的搜索引擎收录的表单。如果是这样,机器人可以通过丢弃它们来节省很多钱。资源。

  30.修改首页description标签会受到处罚吗?

  百度回复:这肯定是想多了,我们鼓励大家通过描述写出网站的介绍,但是过于频繁的修改可能无法及时反馈在摘要中。

  31.谷歌倾向于说每个网页的外链数不要超过100,百度有什么建议吗?

  百度回复:暂时没有这个建议。一般情况下,链接的数量会影响这些链接在页面中的权重;少即是多,多即是少。

  32.nofllow 是否浪费重量

  百度回复:没有

  33.百度如何处理重复内容?

  百度回复:搜索引擎排名的出发点是用户的搜索体验。虽然在很多情况下,尊重原创与用户体验是一致的,但毕竟在某些情况下,转载的体验会比原创更好。此时,原创的排名可能不会高于原创。然而,转载者应该以另一种方式确认原创,而不是简单地汇总。

  34.关于重复网页判断和代码语义

  一个房产网站,网站主要包括一些房屋数据,格式如下:房屋实际面积:90平方米房屋可用面积:100平方米是否房屋抵押:否 房屋是否转让:是房屋 相似属性数据大约有20条,而网站房屋数据有几十万条,全部显示在table标签中布局。数据内容多为数字,文字比较少。它们的布局格式基本相同,只是数据的内容不同。

  问题一:百度会将这些页面视为相同页面还是重复页面拒绝收录?但实际上,这些数据都是不同且有用的。

  问题二:从网页代码语义来看,我可以使用什么样的html标签,让百度更容易理解我的数据?

  百度回复: 问题1:这些页面不会作为重复页面被拒绝,百度可以识别 问题2:请参考百度搜索引擎优化指南2.0

  35.TAG的SPAM页面百度怎么看?

  一些网站 不控制用户的行为,这可能会导致垃圾邮件。数据量太大。垃圾标签+分页的数量在700w+的水平。整体投稿担心权重会k

  百度回复:很多网站喜欢打标签,但不是用户行为,而是直接网页搜索结果。标签虽然写得很好,但内容无关紧要,也是一种作弊形式。

  36.是否建议在网页中设置关键字和描述?如果每个页面都设置了这两个属性,会不会被搜索引擎惩罚为过度优化或作弊?

  百度回复: 绝对回复: 没有。但是可能没有SEOER期望的排序效果。我们会谨慎对待这些元信息。

  事实上,我们欢迎网站在主页和索引页面上认真设置元描述,这将使搜索引擎摘要更易于提取、更人性化、更易于阅读。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线