搜索引擎如何抓取网页(信息检索是什么？它和搜索引擎的关系是怎样的？)

优采云发布时间: 2021-11-01 22:12

　　什么是信息检索？它与搜索引擎的关系是什么？以及，如何更好地使用搜索引擎？

　　点击观看视频，你对人工智能的理解可以轻松超越世界上99%的人类！

　　图文版送给不方便打开的朋友：

　　信息检索（Information Retrieval）起源于图书馆资料查询和摘要索引。计算机诞生后，信息检索的内容从文本检索扩展到图片、音频、视频等各种信息的检索。

　　通常信息检索会包括一个Query，即表达需求的查询字段，以及系统响应的收录所需信息的文档列表。

　　搜索引擎是最常见和最大的信息检索系统。

　　爬虫不断地抓取、存储和更新互联网上的网页内容，然后为它们创建一个类似于字典的索引目录。当用户输入关键词时，他们会通过关键词在这些页面中出现的次数和位置，来判断页面和Query的相关性，从高到低排列。

　　说起来简单，理解用户的查询，去除重复或者低质量的页面，建立高效的索引并不简单。建立一个有用的搜索引擎，往往需要各种NLP技术如分词、信息抽取、文本分类等作为支撑。小小的搜索框背后，是人类的顶级智慧。

　　找不到您想要的信息？我们还可以学习使用一些高效的搜索语句，让搜索引擎更好地理解我们。有机会的话，不妨一试！

0

2021-11-01

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册