filetype:ppt 搜索引擎优化(web技术宋斐4.1搜索引擎搜索引擎)
优采云 发布时间: 2022-02-12 18:09filetype:ppt 搜索引擎优化(web技术宋斐4.1搜索引擎搜索引擎)
网页搜索引擎优化技术 宋飞4.1 搜索引擎 搜索引擎为用户提供信息检索服务。作为一种辅助人们检索信息的工具,它是在Web上发现信息的关键技术,也是用户访问万维网的最佳途径。入口。 借助自动搜索网页的软件,搜索引擎通过互联网上的各种链接获取大页面文档的信息,并按照一定的算法和规则进行排序整理,形成文档索引库,供用户查询. -主流搜索引擎4.1.1 搜索引擎的工作原理 搜索引擎有两个重要的部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载 网站 页面的集合,并将这些页面处理成可搜索的索引。在线部分在用户查询时执行,并根据与用户需求的相关性,使用索引来选择候选文档并按顺序显示。搜索引擎的原理 搜索引擎的原理基于一个三阶段的工作流程,即采集、预处理和服务提供。 搜索引擎的工作原理包括搜索引擎收录页面、索引和为用户提供查询服务。搜索引擎原理 - 三阶段工作流程 网页采集: 预处理: 服务提供: 1 网页采集 网络数据库的基本策略: 1) 常规采集: 2) 增量采集: 网页爬取策略:
优点:实现更简单 采集新网页 2. 采集更新的网页 3. 如果任何网页不再存在,请从库中删除“爬网”策略 将网络视为定向图,采集过程从给定的初始url集合S开始,按照一定的策略(深度优先/宽度优先/其他)沿着网页中的链接进行遍历。 这个过程就像蜘蛛在蜘蛛网(Web)上爬行来维护URL 系统在进行第一次全面的网页采集后,维护了一组对应的URL,后续的搜索都基于这组。存储网页 采集的网页将存储在存储库中。 知识库收录每个网页的 docID、长度、URL 和网页的完整 HTML。 由于网页数量众多,网页在存储到知识库时需要进行压缩。2 预处理 预处理的目的是建立采集到的网络文档的逻辑视图。 链接分析 网页重要性计算 关键词 提取链接分析 链接是分析网页的重要信息 1.链接描述文字准确反映了网页的内容 2.网页之间 链接关系反映了网页的重要性(PageRank Google) 网页重要性的计算 PageRank(Google) 指向一个网页的链接越多,该网页越重要。2 预处理 预处理的目的是建立采集到的网络文档的逻辑视图。 链接分析 网页重要性计算 关键词 提取链接分析 链接是分析网页的重要信息 1.链接描述文字准确反映了网页的内容 2.网页之间 链接关系反映了网页的重要性(PageRank Google) 网页重要性的计算 PageRank(Google) 指向一个网页的链接越多,该网页越重要。2 预处理 预处理的目的是建立采集到的网络文档的逻辑视图。 链接分析 网页重要性计算 关键词 提取链接分析 链接是分析网页的重要信息 1.链接描述文字准确反映了网页的内容 2.网页之间 链接关系反映了网页的重要性(PageRank Google) 网页重要性的计算 PageRank(Google) 指向一个网页的链接越多,该网页越重要。
将整个网络结构视为一个矩阵。N 个网页形成一个 n×n 矩阵。关键词摘录 建立倒排索引 英文分词 中文分词 WordDocIDDocID 中文分词技术 中文分词是中文搜索引擎的核心 中文分词技术 基于字符串匹配的分词算法 中文分词是根据正向/反向最大匹配的方法进行分词 将词索引到文件中 3 查询服务 搜索引擎为用户提供查询接口,用户可以通过浏览器提交要查询的词或词组。 当用户输入关键词时,搜索系统程序从索引数据库中查找与关键词匹配的所有相关网页,并根据关键词的相关性对网页进行排序,相关性越高,排名越高。4.1.2 信息检索技术 信息检索过程始于用户输入查询字符串,这是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档可能具有不同的相关性。三种经典的信息检索 (IR) 模型: 布尔模型 统计模型 中等空间模型 布尔模型:文档表示为 关键词 的集合,查询表示为 关键词 的布尔表达式(And、Or、Not ),其输出是文档是否相关,没有匹配或排名。排名越高。4.1.2 信息检索技术 信息检索过程始于用户输入查询字符串,这是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档可能具有不同的相关性。三种经典的信息检索 (IR) 模型: 布尔模型 统计模型 中等空间模型 布尔模型:文档表示为 关键词 的集合,查询表示为 关键词 的布尔表达式(And、Or、Not ),其输出是文档是否相关,没有匹配或排名。排名越高。4.1.2 信息检索技术 信息检索过程始于用户输入查询字符串,这是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档可能具有不同的相关性。三种经典的信息检索 (IR) 模型: 布尔模型 统计模型 中等空间模型 布尔模型:文档表示为 关键词 的集合,查询表示为 关键词 的布尔表达式(And、Or、Not ),其输出是文档是否相关,没有匹配或排名。这是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档可能具有不同的相关性。三种经典的信息检索 (IR) 模型: 布尔模型 统计模型 中等空间模型 布尔模型:文档表示为 关键词 的集合,查询表示为 关键词 的布尔表达式(And、Or、Not ),其输出是文档是否相关,没有匹配或排名。这是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档可能具有不同的相关性。三种经典的信息检索 (IR) 模型: 布尔模型 统计模型 中等空间模型 布尔模型:文档表示为 关键词 的集合,查询表示为 关键词 的布尔表达式(And、Or、Not ),其输出是文档是否相关,没有匹配或排名。
统计模型:文档表示为一个关键词集合(无序),采样的词相互独立,文档按照词频排序。 向量空间模型:每个文档在高维空间中表示为一个向量,查询也表示为一个向量,将查询和文档集进行比较以找到最接近的文档组。大多数查询系统会计算数据库中的文档与查询字符串匹配的程度,并按排名顺序显示它们。计算方法包括统计法、信息论法和概率法等。这些方法大多基于向量空间模型4.1.3 搜索引擎排名算法的分类当在各种搜索引擎上进行相同的搜索时,会产生不同的结果。其原因是,首先,检索依赖于网络蜘蛛可以找到的信息。其次,并非所有搜索引擎都使用相同的排名算法。排名算法趋势:1. Yahoo! 以雅虎为代表的第一代文本搜索算法;Yahoo的人工分类方法,网站目录搜索2.以PageRank和HITS为代表的基于链接分析的第二代搜索算法;3. 第二代半基础网站 流量。4. 第三代应该具备智能化、个性化、社区化的特点。4.1 .4 谷歌的几种排名算法 首先,使用IR(Information Retrieve)算法查找所有匹配查询关键字的网页; 第二,根据页面因素(标题、关键词密度等)排名; 最后,通过PageRank分数调整排名结果。
该算法要分析的另一个要素是页面如何链接到其他页面。通过分析页面之间的链接方式,搜索引擎可以确定页面的主题(前提是链接页面的关键词与原创页面的关键词相似)以及该页面是否被认为是重要的。 基于链接分析的算法提供了一种衡量网页质量的方法:独立于语言,独立于内容。1 PageRank算法 PageRank在Google中的应用取得了巨大的商业成功。 PageRank算法是一种与查询无关的搜索引擎算法,对网页进行排序,是链接分析技术最早的应用。 PageRank算法通过网络中的链接关系确定页面的排名和相关性,并尝试为所有可以搜索的网页分配一个量化的值,其值由指向该网页的所有网页的值决定。 PageRank 的原理类似于科学论文中的引用机制:谁的论文被引用次数最多谁是权威。缺陷: 独立于用户查询,无法应用于获取特定主题的信息; 重旧网页,重网页外链,忽视专业网站; 链接权限可以从任何页面到任何页面,无论主题的相关性如何,使得完全不相关链接的网站在搜索结果中也排名靠前; 在实践中,PageRank 很难抵抗人为的欺骗。
虽然人类可以很容易地识别出这样的垃圾,但评估所有页面的成本很高且不可行,因此提出了一种*敏*感*词*的技术方案。Trustrank的基本思想是在对网页进行排名时考虑页面所在站点的信任指数和权威性。 TrustRank的工作原理:先用manual来识别优质页面(即“*敏*感*词*”页面),那么“*敏*感*词*”页面指向的页面也可能是优质页面,即他们的TrustRank也很高,这与“*敏*感*词*”页面不同。链接越远,页面的 TrustRank 越低。 TrustRank 的主要概念: 高质量的页面一般不会链接到垃圾页面,而垃圾页面总是试图链接到好的页面以增加其声望; *敏*感*词*页的候选人是专业的< @网站,它们仅根据功绩链接其他页面,例如政府网站,非营利组织网站,并受到严格监管网站(DMOZ,雅虎目录,搜索Engine Watch 等),请勿链接到垃圾邮件页面。 最权威、最可信的网页是“*敏*感*词*”页面本身。TrustRank 有两个步骤,源目标的选择和分数的传递。 让专家手动识别少量优质网站,并赋予信任值; TrustRank 值会随着页面的经过而减小,而随着页面与“*敏*感*词*”页面之间的跨度增大,其 TrustRank 值会越低;3 Hilltop算法 HillTop算法的指导思想与PageRank一致,
Bharat 将此类对主题有影响的文档称为“专家”文档,这些专家文档页面到目标文档的链接决定了链接页面的权重值。HillToP 算法步骤: 首先,根据查询找到“专家网页”。专家网页是关于某个主题的网页,指向许多非附属网页,并且至少有一个短语收录查询关键词。 其次,对排名靠前的专家网页链接的目标页面进行评分,这个过程整合了其与所有相关专家网页的链接关系。 基于“专家”文档的HillTop算法最大难点在于“专家文档”的第一次筛选。目前,Google 提供教育 (.edu)、政府 (.gov) 和非盈利 (. org) 网站优先级高。Hilltop 算法的优点: 与原来的 PageRank 相比,Hilltop 是灵活的,通过来自“权威”文档的链接来确定网页的可信度。对于相同主题、相似PR的网页排名,HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop 解决了这个问题,随便的链接已经失去了用处,即使它们还有一些价值,也比不上专家的链接网站。 Hilltop 类似于 Trust Rank,但更加自动化。对于相同主题、相似PR的网页排名,HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop 解决了这个问题,随便的链接已经失去了用处,即使它们还有一些价值,也比不上专家的链接网站。 Hilltop 类似于 Trust Rank,但更加自动化。对于相同主题、相似PR的网页排名,HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop 解决了这个问题,随便的链接已经失去了用处,即使它们还有一些价值,也比不上专家的链接网站。 Hilltop 类似于 Trust Rank,但更加自动化。
它依赖于专家文档和从这些文档派生的链接,例如 X 链接到 Y,Y 链接到 Z,那么 X 和 Z 也是相关的。Hiltop存在问题 专家页面的搜索和确定在算法中起关键作用;其质量和公平性难以保证。 Hiltop 忽略了大多数非专家页面的影响。 专家页面仅占整个页面的 1 个。79%不能充分反映民意。 Hiltop 算法在无法获得足够的专家页面子集(少于两个专家页面)时返回空。这意味着 Hilltop 不适合作为独立的页面排序算法。 Hilltop 也是在线运行的,难免会影响查询响应时间。随着专家页面集合的增长,算法的可扩展性会受到影响。