搜索引擎优化ppt文档(web搜索引擎优化技术宋斐4.1)

优采云发布时间: 2022-01-17 01:22

　　网络搜索引擎优化技术宋飞4.1 搜索引擎搜索引擎为用户提供信息检索服务。作为一种辅助人们检索信息的工具，它是发现Web信息的关键技术，是用户访问万维网的最佳入口。. 借助自动搜索网页的软件，搜索引擎通过互联网上的各种链接获取大页文档的信息，并按照一定的算法和规则进行排序整理，形成文档索引库，供用户查询. －主流搜索引擎4.1.1 搜索引擎的工作原理搜索引擎有两个重要的部分，即离线部分和在线部分。离线部分由搜索引擎定期执行，包括下载一组网站页面并将它们处理成可搜索的索引。在线部分在用户查询时执行，并根据与用户需求的相关性，使用索引来选择候选文档并按顺序显示。搜索引擎的原理搜索引擎的原理是基于三个阶段的工作流程，即采集、预处理和服务提供。搜索引擎的工作原理包括搜索引擎收录页面、建立索引、为用户提供查询服务。搜索引擎原理——三阶段工作流程网页采集：预处理：提供服务：1.网页采集基本策略web数据库：1）常规采集：2）增量采集：网页爬取策略：< @1）

　　优点：实现更简单缺点：开销大，两次采集的时间间隔不会很短，“新鲜度”不高，增量搜索一开始就采集一次，那么：1.采集新的网页2.采集更新的网页3.如果任何网页不再存在，请从库中删除“爬取”策略。把web看成一个有向图，采集过程从一个给定的初始url集合S开始，跟随网页中的链接，按照一定的策略（深优先/宽度优先/其他）进行遍历。这个过程就像蜘蛛在蜘蛛网（Web）上爬行。维护URL 系统在进行第一次综合网页采集后，会维护相应的一组URL，和后续的搜索都基于这个集合。存储网页采集的网页将存储在存储库中。知识库收录每个网页的 docID、长度、URL 和网页的完整 HTML。由于网页数量众多，网页在存储到知识库时需要进行压缩。2 预处理预处理的目的是建立采集到的网络文档的逻辑视图。链接分析网页重要性计算关键词提取链接分析链接是分析网页的重要信息1.链接描述文字准确反映了网页内容2.

　　将整个网络结构视为一个矩阵。N 个网页形成一个 n×n 矩阵。关键词提取并建立倒排索引英文分词中文分词中文分词技术中文分词是中文搜索引擎的核心中文分词技术基于字符串匹配的分词方法基于统计的分词方法字符串匹配基于分词算法正减词的最大匹配法（MM）和逆减词的最大匹配法（RMM）结合了以上两种方法。3、查询服务搜索引擎为用户提供查询界面，用户可以通过浏览器提交要查询的词或词组。当用户输入关键词时，搜索系统程序从索引数据库中查找与关键词匹配的所有相关网页，并根据关键词的相关性对网页进行排序。排名越高。4.1.2 信息检索技术信息检索过程始于用户输入查询字符串，这是信息需求的形式化表示。在信息检索中，一个查询字符串可以识别数据库中的多个文档，这些文档可能具有不同的相关性。三种经典信息检索 (IR) 模型：布尔模型统计模型中等空间模型布尔模型：文档表示为关键词的集合，查询表示为关键词的布尔表达式（And、Or、Not），其输出是文档是否相关，

　　统计模型：文档表示为一个关键词集合（无序），采样的单词相互独立，文档按照词频排序。向量空间模型：每个文档在高维空间中表示为一个向量，查询也表示为一个向量。将查询与文档集进行比较以找到最接近的文档集。大多数查询系统会计算数据库中的文档与查询字符串匹配的程度，并按排名顺序显示它们。计算方法有统计法、信息论法和概率法等。这些方法大多基于向量空间模型。结果。其原因首先是检索依赖于网络蜘蛛可以找到的信息。第二，并非所有搜索引擎都使用相同的排名算法。排名算法趋势：Yahoo！以雅虎为代表的第一代文本搜索算法；雅虎手动分类方法，网站目录搜索PageRank和HITS为代表的基于链接分析的第二代搜索算法；第二代基于网站访问的半基础搜索算法。第三代应具备智能化、个性化、社区化的特点。4.1.4 谷歌的几种排名算法首先，使用IR（Information Retrieve）算法查找所有匹配查询关键字的网页；二、根据页面因素（标题、关键词密度等）排名；最后，通过PageRank分数调整排名结果。

　　通过分析页面之间的链接方式，搜索引擎可以确定页面的主题（前提是链接页面的关键词与原创页面的关键词相似）以及该页面是否被认为是重要的。基于链接分析的算法，提供了一种衡量网页质量的方法：与语言无关，与内容无关。1 PageRank算法 PageRank在Google中的应用取得了巨大的商业成功。PageRank算法是一种与查询无关的搜索引擎算法，对网页进行排序，是链接分析技术最早的应用。PageRank算法通过网络中的链接关系确定页面的排名和相关性，并尝试为所有可以搜索到的网页分配一个量化的值，其值由指向该网页的所有网页的值决定。PageRank 的原理类似于科学论文中的引用机制：谁的论文被引用次数最多谁是权威。缺点：独立于用户查询，无法应用于特定主题获取信息；重旧网页，重网页外链，忽视专业网站；链接权限可以从任何页面到任何页面，无论主题的相关性如何，从而使来自完全不相关链接的网站链接在搜索结果中也排名靠前；在实践中，PageRank 难以抗拒人为的欺骗。2 TrustRank算法提升排名的主流技术之一是借助人工智能，

　　虽然人类可以很容易地识别出这种垃圾，但评估所有页面的成本很高且不切实际，因此提出了一种*敏*感*词*化的技术方案。Trustrank的基本思想是在对网页进行排名时考虑到页面所在站点的信任指数和权威性。TrustRank是如何工作的：首先手动识别优质页面（即“*敏*感*词*”页面），那么“*敏*感*词*”页面指向的页面也可能是优质页面，即他们的TrustRank也很高，即与“*敏*感*词*”页面相同。链接越远，页面的 TrustRank 越低。TrustRank的主要概念：高质量的页面一般不会链接到垃圾页面，而垃圾页面总是试图链接到好的页面以增加其声望；*敏*感*词*页面的候选人是专业的网站，仅基于功绩链接其他页面的人，例如政府网站、非营利网站和严格监管的网站（DMOZ、雅虎目录、搜索引擎观察等），他们将不链接到垃圾邮件页面。最权威、最可信的网页是“*敏*感*词*”页面本身。TrustRank 有两个步骤，源目标的选择和分数的传递。让专家手动识别少量优质网站，并赋予信任值；TrustRank 值会随着页面的经过而减小，随着页面与“*敏*感*词*”页面的跨度增大，其 TrustRank 值 3 Hilltop Algorithm HillTop 算法的指导思想与 PageRank 一致，

　　Bharat 将此类影响主题的文档称为“专家”文档，并且从这些专家文档页面到目标文档的链接决定了链接页面的权重。HillToP算法的步骤：首先，根据查询搜索“专家网页”。专家网页是关于某个主题的网页，指向许多非附属网页，并且至少有一个短语收录查询关键词。其次，对顶级专家页面链接到的登录页面进行评分，该过程将其链接关系与所有相关专家页面相结合。基于“专家”文档的HillTop算法最大的难点在于“专家文档”的第一次筛选。目前，Google 优先考虑教育 (.edu)、政府 (.gov) 和非营利 (.org) 网站。Hilltop 算法的优点：与原来的 PageRank 相比，Hilltop 是灵活的，通过来自“权威”文档的链接来确定网页的可信度。对于相同主题、相似PR的网页排名，HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop解决了这个问题，随便的链接已经失去了用处，即使还有一些价值，也比不上专家的链接网站。Hilltop 类似于 Trust Rank，但更加自动化。它依赖于专家文档和从这些文档派生的链接，例如 X 链接到 Y，Y 链接到 Z，那么 X 和 Z 也是相关的。Hilltop 是灵活的，它通过“权威”文档的链接来确定网页的可信度。对于相同主题、相似PR的网页排名，HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop解决了这个问题，随便的链接已经失去了用处，即使还有一些价值，也比不上专家的链接网站。Hilltop 类似于 Trust Rank，但更加自动化。它依赖于专家文档和从这些文档派生的链接，例如 X 链接到 Y，Y 链接到 Z，那么 X 和 Z 也是相关的。Hilltop 是灵活的，它通过“权威”文档的链接来确定网页的可信度。对于相同主题、相似PR的网页排名，HillTop算法非常重要。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop解决了这个问题，随便的链接已经失去了用处，即使还有一些价值，也比不上专家的链接网站。Hilltop 类似于 Trust Rank，但更加自动化。它依赖于专家文档和从这些文档派生的链接，例如 X 链接到 Y，Y 链接到 Z，那么 X 和 Z 也是相关的。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop解决了这个问题，随便的链接已经失去了用处，即使还有一些价值，也比不上专家的链接网站。Hilltop 类似于 Trust Rank，但更加自动化。它依赖于专家文档和从这些文档派生的链接，例如 X 链接到 Y，Y 链接到 Z，那么 X 和 Z 也是相关的。这比通过购买离题链接获得高排名对人类来说更难做到。Hilltop解决了这个问题，随便的链接已经失去了用处，即使还有一些价值，也比不上专家的链接网站。Hilltop 类似于 Trust Rank，但更加自动化。它依赖于专家文档和从这些文档派生的链接，例如 X 链接到 Y，Y 链接到 Z，那么 X 和 Z 也是相关的。

　　*敏*感*词*有问题的专家页面的搜索和确定在算法中起着关键作用；其质量和公平性难以保证。*敏*感*词*忽略了大多数非专家页面的影响。专家页面仅占整个页面的1.79%，不能充分反映舆论。当无法获得足够的专家页面子集（少于两个专家页面）时，*敏*感*词*算法返回空。这意味着 Hilltop 不适合作为独立的页面排序算法。Hilltop 也是在线运行的，这势必会影响查询响应时间。随着专家页面集合的增长，算法的可扩展性会受到影响。* * Word DocID DocID * * * 解释：可接受的时间，匹配，列表解释：网络采集，预处理，服务谷歌，大约需要一个月的时间来更新

0

2022-01-17

搜索引擎优化ppt文档

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化ppt文档(web搜索引擎优化技术宋斐4.1)

0 个评论

发起人