搜索引擎主题模型优化(建议参加者:还没有体会到搜索引擎原理在SEO上有什么用处的培训参加者)
优采云 发布时间: 2022-03-04 11:19搜索引擎主题模型优化(建议参加者:还没有体会到搜索引擎原理在SEO上有什么用处的培训参加者)
建议参加者:
培训尚未体验过搜索引擎原则在 SEO 中的有用性的参与者。
课程内容简介:
解读“进入搜索引擎”,解释哪些是SEO需要阅读的,哪些是相对不重要的。并对中文分词、倒排索引等关键部分进行了详细的讲解。
下课以后:
逐步阅读并理解《走进搜索引擎》的重点章节。
上半场
1. 抓取系统
爬虫只是一个下载器,你可以把它想象成一个霹雳。它本身的分析能力非常有限,唯一的分析功能主要是提取页面上的链接进行持续爬取。搜索引擎的大部分分析步骤都是在页面第一次被爬回来之后完成的。
关于爬虫的常见误解是搜索引擎不能很好地爬取动态网页。
2. 分析系统
分析系统使用程序来尝试解释网页的类型、主题等。
3. 索引系统
索引系统将网页内容转化为倒排索引,支持海量数据的快速查询。
4. 查询系统
当用户搜索一个词时,就会触发搜索引擎的查询系统。它涉及到搜索结果的排序等,一般是SEO最关心的部分。
《走进搜索引擎》(第二版)重点章节
下载系统
第 6 页 搜索引擎架构
第 12 页万维网的直径 - 平面的重要性 网站
第16页广度优先战略-百度总战略
第 19 页 不要重复抓取策略
第25页网页抓取优先策略
第 26 页网页重访政策 - 快照更新的性质
第 31 页 其他应重点关注的礼貌问题 - 获取压力反馈
分析系统
第 46 页 Web 结构的目标 - 块重要性的差异
第 52 页 通过投票获取文本
第 56 页网页重复检查 - 伪原创不可行和特色项目
第61页中文分词-同一个关键词对应的多个页面的权重是否分布
Page 68 PageRank 的基本思想 - 为什么反向链接有效
指标体系
第 87 页 倒排索引 - 检索的本质和 关键词 的伪概念
查询系统
第 113 页 什么是信息熵 - 原创文章!=有价值文章
第115页搜索词和查询词之间的区别 - 区域排名
第 116 页自动文本摘要 - 未显示说明的原因
第122页关键词权重量化方法TF-IDF
第137页自动中文摘要-摘要可控
第 145 页 推断用户查询意图
排序学习
第 186 页查询相关/不相关的排名模型 - 排名因素的细分
第 217 页 排序功能
搜索引擎性能调优——性能瓶颈
下半场
下载页面->中文分词->倒排索引->查询
Python 示例:最简单的搜索引擎
在搜索引擎看来,网页是由大量的词组成的。
思考:为什么关键词在网页中的重复出现有时可以提升排名?