网站用robots协议拒绝搜索引擎的网页性质及文件类型

优采云 发布时间: 2021-04-30 00:02

  网站用robots协议拒绝搜索引擎的网页性质及文件类型

  1。 Spider无法正确处理的网页的性质和文件类型(例如Flash,脚本,ps,一些动态网页和框架,数据库)2、孤岛网页未指向链接3、由于某些原因,蜘蛛访问原因碰巧是死链接。 4、它被认为是质量较差的网页,没有被捕获。 5、由于/ porn / reactionary / spam /而无法捕获的非法网页。6、您需要输入用户名和密码才能打开网页。 7、 网站使用漫游器协议拒绝搜索引擎抓取的网页8、将来搜索引擎抓取的新网页9、 gopher,新闻组,Telnet,f​​tp,wais和其他非http信息1 0 网站数据库太糟糕了,蜘蛛被捕获后便崩溃了。 1 1.它在搜索引擎库中,但无法正确索引网页中的信息。 1 2、分词会导致错误。 1 3、图形中的文本信息。可以理解,但搜索引擎无法理解1 4、搜索引擎故意不编制索引的信息,例如停用词,[1] 5、搜索引擎有选择地对某些网页进行索引,但并非对所有网页信息进行索引1 6、搜索引擎该网页中的信息已正确索引,但与您使用的信息不同关键词 1 7、您使用的搜索关键词收录错别字1 8、该页面的作者使用了错字1 9、没有错别字,但所用页面的作者的词汇表与您的关键词不同。毕竟,文本的特征允许n种方式来表达相同的信息。 2 0、简体中文和繁体中文的不同编码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线