网站用robots协议拒绝搜索引擎的网页性质及文件类型

优采云发布时间: 2021-04-30 00:02

　　1。 Spider无法正确处理的网页的性质和文件类型（例如Flash，脚本，ps，一些动态网页和框架，数据库）2、孤岛网页未指向链接3、由于某些原因，蜘蛛访问原因碰巧是死链接。 4、它被认为是质量较差的网页，没有被捕获。 5、由于/ porn / reactionary / spam /而无法捕获的非法网页。6、您需要输入用户名和密码才能打开网页。 7、网站使用漫游器协议拒绝搜索引擎抓取的网页8、将来搜索引擎抓取的新网页9、 gopher，新闻组，Telnet，ftp，wais和其他非http信息1 0 网站数据库太糟糕了，蜘蛛被捕获后便崩溃了。 1 1.它在搜索引擎库中，但无法正确索引网页中的信息。 1 2、分词会导致错误。 1 3、图形中的文本信息。可以理解，但搜索引擎无法理解1 4、搜索引擎故意不编制索引的信息，例如停用词，[1] 5、搜索引擎有选择地对某些网页进行索引，但并非对所有网页信息进行索引1 6、搜索引擎该网页中的信息已正确索引，但与您使用的信息不同关键词 1 7、您使用的搜索关键词收录错别字1 8、该页面的作者使用了错字1 9、没有错别字，但所用页面的作者的词汇表与您的关键词不同。毕竟，文本的特征允许n种方式来表达相同的信息。 2 0、简体中文和繁体中文的不同编码

0

2021-04-30

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站用robots协议拒绝搜索引擎的网页性质及文件类型

0 个评论

发起人

AI时代内容工厂

网站用robots协议拒绝搜索引擎的网页性质及文件类型

0 个评论

发起人

相关问题