XXXXXXXXXXXXXXXXXX第四节重要的搜索引擎(Google)第四节
优采云 发布时间: 2021-08-14 18:34XXXXXXXXXXXXXXXXXX第四节重要的搜索引擎(Google)第四节
? XXXXXXXXXXXXXXXXXX Section 4 重要搜索引擎一、 Google (Google) Google 使用一套独特的先进硬件和软件,核心软件称为PageRankTM。 Google 将页面级别视为所有网络搜索工具的基础。页面层作为一种组织管理工具,利用了互联网独特的“民主”特征及其庞大的链接结构。本质上,当从网页 A 链接到网页 B 时,Google 认为“网页 A 为网页 B 投票”。谷歌根据收到的票数评估其重要性。但是,除了考虑网页上的纯投票数(即链接)之外,Google 还会分析投票的网页。投票的“重要”网页会有更高的权重,有助于增加其他网页的“重要性”(见图5-2).?XXXXXXXXXXXXXXXXXX第4节重要搜索引擎一、Google (Google) 重要、高质量的网页页面将获得更高的页面级别。Google在对其搜索结果进行排名时会考虑每个页面的级别。Google将页面级别与复杂的文本匹配技术相结合。Google更关注关键词在网页上出现的次数. 它还对网页的内容(以及链接到网页的内容)进行全面检查,以确定该网页是否满足用户的查询要求。
Google 已通过其复杂且全自动的搜索方法排除了任何影响搜索结果的人为因素。没有人可以花钱购买更高的页面级别,从而保证了客观公正的页面排名。图 5-2 Google 的工作流程? XXXXXXXXXXXXXXXXXX 第四节重要搜索引擎一、谷歌(Google) 特点:(1)Google 目录收录拥有数十亿个网址,在中国同类搜索引擎中首屈一指。网站内容覆盖面广(2)Google 不仅可以搜索收录所有关键词 的结果,还可以分析网页关键词 的接近度。(3)Google 保存一个网页的快照。当服务器网页暂时失效,用户仍然可以浏览网页内容。如果找不到服务器,也可以使用谷歌存储的网页快照以备不时之需。虽然网页快照中的信息可能不是最新的,但是在网页快照中查找信息要比在实际网页中快得多。(4)Basic Search Google 查询简洁方便。输入查询内容后按回车键“回车”,或点击“谷歌”搜索”按钮获取相关信息。?XXXXXXXXXXXXXXXXXX第4节 im重要的搜索引擎一、谷歌(Google) 其他:(1)提供最准确的信息,Google不使用“词干法”,也不支持“通配符”(*)搜索。
(2) 除了一般网页,Google 现在可以搜索各种类型的文件,例如 Adobe PDF、Microsoft Word、PowerPoint。(3) 当您点击“类似页面”时,Google 开始搜索 Web与页面相关的页面。有一些词在对谷歌有特殊含义后带冒号。(4)另一个对谷歌有特殊含义后带冒号的词是“站点:”。它必须在一个具体域 或者在站点中搜索,可以在谷歌搜索框中输入“站点:××××××com”。?XXXXXXXXXXXXXXXXXXXXX 第4节重要搜索引擎一、谷歌(Google) 两个系统:(1)谷歌有一个智能的简繁汉字自动转换系统,这个系统不是简单的字符转换,而是简繁文本之间的“翻译”转换,比如简体“计算机”就会对应繁体“计算机”。当您搜索所有中文网页时,Google 会将搜索转换为词条转简繁体,可同时搜索简繁网页;并将搜索结果的标题和摘要转换为与搜索词相同的文本,便于阅读。 (2)Google的错别字纠正软件系统会自动扫描输入的关键词检查错别字。如果发现用其他词搜索可能会有更好的结果,可以提供相应的提示,帮助纠正可能的错别字。
例如,如果您搜索“Internet”,Google 会自动提示“您的意思是:Internet”。如果您单击“Internet”,Google 将使用“Internet”作为关键词 进行搜索。 ? XXXXXXXXXXXXXXXXXX 第4节重要搜索引擎一、谷歌(Google) 具体应用:谷歌地图谷歌天气谷歌学术* * * * * * * 网络信息检索第5章? XXXXXXXXXXXXXXXXXX 一方面,网络传播的目的是为了让更多的读者阅读和使用,让人们更容易通过互联网检索相关信息;另一方面,网络传播在生产过程中需要使用大量的网络信息资源,尤其是免费的信息资源。进行大量的网络信息检索,因此网络传播与网络信息检索有着较为密切的关系。此外,网络时代的作者、出版者和读者也必须掌握网络信息检索技术,充分利用网络信息资源。本章目录 第 1 节 第 2 节 网络信息检索模型的特点 第 3 节搜索引擎和检索策略 第 4 节重要搜索引擎 第 5 节数字图书馆检索? XXXXXXXXXXXXXXXXXX 第一节 网络信息的特点 网络环境中的信息资源不同于以往任何环境中的信息资源。
在网络环境中,信息以计算机可识别的方式(0或1))存储在网络的某个节点上,需要时可以随时通过通用互联网传输到任何合法网络。结束XXXXXXXXXXXXXXXXXX 第一节 网络信息的特点一、 数量庞大、种类丰富、形式多样 互联网信息内容丰富,信息信息丰富。体量爆炸式增长,具有多媒体、多类型、非标准、跨时间、跨空间、跨行业、跨语言的特点,这些资源可以说是其他任何环境下的信息资源都无法比拟的. 网络环境 信息资源的种类也很丰富,如图形图像信息、计算机软件信息、发送到网络的信息等。 e 用户通过电子邮件或其他方式上网。许多这些丰富的信息资源在其他环境中是找不到的。例如,无法以印刷形式找到某些在线版本的材料。尤其是用户向互联网发送的信息是重要的实时信息来源,体现了网络信息资源的特点。网络信息资源不仅是分布的、传播范围广的、开放的、不断增长的“有机体”。 XXXXXXXXXXXXXXXXXX 第一节 网络信息特点二、 传输速度快、更新频率高、成本低 信息的价值在很大程度上受及时性的影响。信息用户在需要信息时能够得到及时的响应,是保证及时性的重要途径。
但是,过去的信息环境很难提供这种保证。互联网提供了一条辐射全球的高速信息资源传输通道,信息资源的传输速度非常快。它解决了信息传输延迟导致的服务滞后问题,使信息资源能够更快地分配到各种产品的生产中。 ? XXXXXXXXXXXXXXXXXX 第一节 网络信息的特点三、共享程度更高 信息资源共享,是信息资源优于物质资源和能源资源的重要特征,也使信息资源在更高层次上发挥作用配置。在网络环境中,时间和空间的范围得到了最大程度的延伸和扩展。信息资源上线后,不仅可以及时提供给本地网络用户,还可以通过互联网发送到全球每个用户的终端。用户几乎无需排队就可以共享相同的信息资源。高度共享的网络信息资源有效缓解了资源配置中“一心一意”的矛盾,最大限度地利用了有限的信息资源。 ? XXXXXXXXXXXXXXXXXX 第一节 网络信息的特点四、全球与跨文化 网络信息突破地域、无国界、跨国传播成本低。目前几乎所有国家都连接到互联网,网络信息真正具有全球性和跨文化性。互联网已成为不同国家间跨文化交流前所未有的便捷、快捷的信息交流渠道。网络信息的全球性让网民可以方便地选择自己喜欢的新闻网站,在全球范围内以低成本主动获取自己需要的信息,增加了政治的公开性和透明度。
? XXXXXXXXXXXXXXXXXX 第一段网络信息的特征五、Multimedia 所谓多媒体,就是让计算机成为一种可以作用于具有多种感知能力的人的媒体。它集成了多种媒体表达方式(如文本和声音)。 、图片、*敏*感*词*、视频等)来传递信息。多媒体首先必须是数字媒体。数字媒体是一种通过比特传输信息的方式。例如,硬盘、光盘(包括VCD和DVD)、数字电视、计算机网络等都是数字媒体。 ? XXXXXXXXXXXXXXXXXX 第一节 网络信息的特点?知识拓展:网络信息资源类型1、根据信息交流方式:(1)Formal Information(2)Informal Information(3)半官方信息2、)根据对应的非网络信息资源:(1)图书馆馆藏目录(2)电子书刊(3)参考工具书))(4)Database(5)Other types3、根据信息获取方式) 积分:(1)邮型(2)电话型(3)clipboard型(4)播型(5)图书馆型)-见杜俊飞的《网络通信概论》第五章?XXXXXXXXXXXXXXXXXX第一网络信息的特点?知识?拓展:网络信息资源的特点——见杜俊飞《网络传播概论》第5章XXXXXXXXXXXXXXXXXX第2节网络信息检索模型网络信息检索是在互联网上查找相关信息的过程。
相关性是信息需求内容与文献内容之间的关系。在信息检索模型中,可分为布尔逻辑检索模型、模糊集模型、向量空间模型和概率模型。 XXXXXXXXXXXXXXXXXX 第二节网络信息检索模型一、布尔逻辑模型布尔检索模型以George Boole命名。它的数学理论基础是集合论和布尔代数。它将文档视为术语的集合。如果词典中的单词出现在文档中,则标记为1,否则标记为0。这样,词典中的单词与所有文档形成关联矩阵(关联矩阵)。用户的查询由单词和布尔运算符组成的布尔表达式表示。布尔运算符分为三种类型:逻辑 AND、OR 和 NOT。信息检索系统根据布尔表达式确定是否将文档视为布尔运算的结果。返回搜索结果。乔治·布尔于 1815 年 11 月 2 日出生于英国林肯。 19 世纪最重要的数学家之一,出版了《逻辑的数学分析》,这是其对符号逻辑的众多贡献中的第一篇。 ? XXXXXXXXXXXXXXXXXX 第二节网络信息检索模型二、fuzzy 集合模型布尔逻辑检索模型和扩展布尔逻辑检索模型主要基于康托尔的经典集合论,但经典集合论不能容纳模糊概念。信息检索过程中的歧义难以解释,用户对检索结果的满意度也不确定。
为了解决这种模糊性带来的不确定性问题,人们引入模糊集理论来构建模糊集模型。 Zadeh,美国自动控制专家,美国工程科学院院士。 1921年2月生于苏联巴库。 1949年,他获得博*敏*感*词*。哥伦比亚大学电气工程专业。 ? XXXXXXXXXXXXXXXXXX 第2节网络信息检索模型三、Vector Space Model 矢量空间模型最早由Gerard Salton提出。向量空间模型将用户的查询需求和数据库文档信息表示为检索项组成的向量空间中的点,通过计算向量之间的距离来确定文档与查询的相似程度,最终排列查询结果根据相似程度。向量空间模型的关键是特征向量的选取和特征向量权重的计算。有两个与向量空间模型密切相关的概念:词频(TF)和逆文档频率(IDF)。杰拉尔德·索尔顿 (Gerald Salton) 于 1927 年 3 月 8 日出生于德国纽伦堡。 1950年大学毕业,1952年获硕*敏*感*词*,获博*敏*感*词*。 1958 年获得哈佛大学数学博*敏*感*词*。Gerard Salton 被认为是现代搜索技术之父。 ? XXXXXXXXXXXXXXXXXX Section 2 Network Information Retrieval Model 四、probability model 概率检索模型由 Marlow 和 Kuhns 于 1960 年首次提出。
概率检索模型的基本思想是给定一个文档D,定义一个随机变量R表示D是否与查询相关(R=1表示D与查询相关,R=0表示D与查询不相关),则文档按照概率值P(RI10)降序排列,实现相关性排序。概率检索模型有以下几种。?XXXXXXXXXXXXXXXXXX第3节搜索引擎和检索策略一、Search Engine Concepts and Principles (一)Purpose and composition: 搜索引擎的目的是帮助人们找到信息资源。搜索引擎主要由四部分组成:searcher、indexer、searcher和user interface。(二)功能:搜索器的功能是在互联网上发现和搜索信息,它必须尽可能快地采集尽可能多的信息,同时定期更新现有信息,避免死链接和有效链接。索引器的作用是了解搜索者搜索到的信息。 ,从中提取索引项,用它来表示文档并生成文档库的索引表,建立自己的索引数据库。 (三)起源:搜索引擎起源于传统的信息全文检索理论,即计算机程序对文章中的每一个词进行扫描,创建一个以词为单位的倒排文档。搜索程序是根据每个文章中搜索词的频率和文章中每个搜索词出现的概率,对收录这些搜索词的文章进行排序,最后输出排序结果。?XXXXXXXXXXXXXXXXXX第3节搜索Engines and Search Strategies 一、Search Engine Concepts and Principles(四)工作原理:使用WWW查询引擎使用时,一般根据用户输入的关键词,在数据库中查询相关信息,并然后将结果提供给用户。
一个完整的搜索引擎系统还需要有一个搜索结果页面生成系统,即高效地将搜索结果组装成互联网页面(见图5-1)。图5-1 搜索引擎是如何工作的?XXXXXXXXXXXXXXXXXX第三节 搜索引擎的概念和原理及其检索策略一、Search Engine(五) 概念:搜索引擎采集和组织在线信息资源,并按照一定的规则组织和组织,供人们遵循相应的规则提取信息线索,并且可以直接链接到相关网站的在线信息搜索工具。搜索引擎并不是真正搜索互联网,而是搜索预先组织的网络索引数据库。?XXXXXXXXXXXXXXXXXX第3节搜索引擎和搜索策略二、搜索引擎类型 搜索引擎可以根据不同的标准进行分类(见表 5-1).?XXXXXXXXXXXXXXXXXX 第 3 节搜索引擎和搜索策略es 三、Search Engine 未解决的问题? XXXXXXXXXXXXXXXXXX 第三节 搜索引擎及其检索策略四、Internet Information Retrieval Strategies(一)Basic Search Strategies:布尔逻辑检索几乎所有的检索系统都有布尔检索功能。布尔运算符包括AND、NOT、OR,例如检索样式:发动机和(汽车或卡车)。
<p>(二)Scope 限制秒搜索:对于秒搜索,可以重新开始,在整个索引中搜索,或者限制在之前的搜索结果中优化搜索。时间范围(时间限制):雅虎系统设置 搜索时间范围是最近三年,用户也可以选择1天和3年 语言限制:AltaVista可以查询25种不同语言的信息,包括英文、日文、中文、德文等。但是在查询的时候,不能使用双字节字符(如中文、日文等)进行搜索。如果您要查找中文信息,可以用英文搜索并将结果限制为中文。?XXXXXXXXXXXXXXXXXX第3节搜索引擎及其检索策略四、互联网信息检索策略(三)Intelligent Search/Concept Search Excite 使用“概念搜索”ICE(智能概念提取)技术,通过发现词与概念之间的关系,自动添加一些搜索词,suc h 输入“*敏*感*词*的财务问题”,除了查找与这些词完全匹配的文档外,还会查找与“退休人员的经济状况”、“*敏*感*词*的财务问题”等相关的节点。