核心方法:搜索引擎算法中TF-IDF是什么意思
优采云 发布时间: 2022-09-21 22:05核心方法:搜索引擎算法中TF-IDF是什么意思
真正掌握seo优化技术的唯一途径是充分了解搜索引擎算法,所以在学习seo技术之初,要不断地从浅入深地构建这方面更专业的认知。更深。在seo基础学习中,如果对搜索引擎不了解和了解,确实是不可能通过纯白帽seo完成一个网站优化的。今天wp自学笔记和小伙伴们分享一下TF-IDF在搜索引擎算法中是什么意思?以下内容转载自百度百科。
TF-IDF(词频-逆文档频率)是一种常用的信息检索和数据挖掘加权技术。 TF 是词频,IDF 是逆文档频率。 TF-IDF 是一种统计方法,用于评估单词对文档集或语料库中的一个文档的重要性。一个词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。搜索引擎经常应用各种形式的 TF-IDF 加权作为文档和用户查询之间相关程度的度量或评级。除了 TF-IDF,互联网上的搜索引擎还使用基于链接分析的排名方法来确定文档在搜索结果中出现的顺序。
TFIDF的主要思想是:如果一个词或词组在一个文章中频繁出现TF,而在其他文章中很少出现,则认为这个词或词组有Good category辨别能力,适合分类。 TFIDF其实就是:TF * IDF,TF Term Frequency,IDF逆文档频率。 TF 表示词条在文档 d 中出现的频率。 IDF的主要思想是:如果收录term t的文档较少,即n越小,IDF越大,说明term t有很好的分类能力。如果某类文档 C 中收录词条 t 的文档数为 m,其他类型中收录 t 的文档总数为 k,显然收录 t 的文档数为 n=m+k。当m很大时,n也很大。 ,根据IDF公式得到的IDF值会很小,说明条目t的分类能力不强。但实际上,如果某个词条在一类文档中频繁出现,则说明该词条能够很好地代表该类文本的特征,应该赋予此类词条更高的权重,并选择该词条作为该类文本的特征词将其与其他类型的文档区分开来。这就是 IDF 的不足之处。在给定文档中,词频 (TF) 是指给定词在文档中出现的频率。这个数字被标准化为术语计数,以防止它偏向长文件。 (同一个词在长文件中的字数可能比在短文件中的字数高,不管这个词是否重要。)
TFIDF算法是基于这样一个假设,即对于区分文档最有意义的词应该是那些在整个文档集合中经常出现在文档中而在其他文档中不经常出现的词,所以如果特征空间坐标系取TF词频作为衡量标准,可以反映相似文本的特征。此外,考虑到词区分不同类别的能力,TFIDF 方法认为词的文本频率越小,其区分不同类别文本的能力就越大。因此,引入了逆文本频率IDF的概念,将TF与IDF的乘积作为特征空间坐标系的值度量,用于调整权重TF。调整权重的目的是突出重要的词,抑制次要的词。单词。但本质上IDF是一种试图抑制噪声的加权,简单地认为文本频率低的词更重要,文本频率高的词没用是不完全正确的。 IDF结构简单,不能有效反映词的重要性和特征词的分布,不能很好地发挥调整权重的功能,因此TFIDF方法的准确率不是很高。
另外,单词的位置信息并没有反映在TFIDF算法中。对于 Web 文档,权重计算方法应该反映 HTML 的结构特征。特征词在不同的标签中反映文章的内容不同,其权重的计算方法也应该不同。因此,应为网页不同位置的特征词分配不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
TF-IDF模型是搜索引擎等实际应用中广泛使用的信息检索模型,但对于TF-IDF模型一直存在各种疑问。本文是针对信息检索问题的基于条件概率的 box-and-ball 模型。核心思想是将“查询字符串q与文档d的匹配度问题”转化为“查询字符串q来自文档d的条件概率问题”。它从概率的角度定义了比 TF-IDF 模型表达的信息检索问题更明确的匹配目标。该模型可以结合TF-IDF模型,一方面解释其合理性,另一方面发现其缺陷。此外,该模型还可以解释 PageRank 的含义,以及为什么 PageRank 权重和 TF-IDF 权重之间存在乘积关系。
事实:搜索引擎优化?和俺本地化有什么关系?(一)
前言
如果你去一些LSP(Language Service Provider)的官网,你会发现他们经常在网站本地化业务下覆盖一个叫“搜索引擎优化”的服务。
T先生文章的这篇文章将简要介绍搜索引擎优化(SEO)的概念及其与本地化的关系,然后介绍SEO的实现方法。 T先生预计用2-3次推送来介绍SEO的难点。
本文以科普为主。所有信息均来自互联网采集、汇总、筛选和汇编。如有错误请后台留言。感谢您的支持。
本地化的概念可以简单地解释为“调整产品以适应目标区域用户的使用习惯”。本地化的存在是为了服务于“最大化产品利润”的目的。对于国际产品,本地化过程中最重要的一点(一) 是语言。
Common Sense Advisory (CSA) 和 Lionbridge 曾进行过市场调查,发现 72.4% 的消费者倾向于购买以母语提供产品信息的产品。 72.1% 的消费者在购买产品时只浏览 网站 母语的内容。
本地化行业标准委员会 (LISA) 的一项研究还指出,公司每在本地化内容上花费 1 美元,就可以收回 25 美元。
上述两项研究强烈支持内容本地化的重要性,但它们忽略了一点:如何让您精心本地化的产品被广泛的潜在用户群发现?
在互联网时代,消费者查找信息的首选是使用搜索引擎。但是,搜索引擎不一定会立即在搜索结果的首页上展示公司的产品。如果我们自己的产品不能出现在首页怎么办——换个角度看,作为消费者,我们需要多少耐心和时间来翻页?
这就是需要搜索引擎优化 (SEO) 的地方。这是一种通过提高在无偿搜索引擎结果中的排名来增加网站流量和品牌曝光度的技术。
SEO 不仅依靠搜索引擎原理来提高排名,更重要的是,它研究人们在网上搜索什么,人们期望得到什么样的答案,人们使用什么样的 关键词,以及想要获得服务内容的人。如果了解所有这些,公司就可以定制他们的产品,以更好地匹配潜在用户群的搜索习惯——理想情况下,用户会在主页上看到您为他们提供的内容。
除了了解用户之外,您还需要了解机器。搜索引擎就像一个黑匣子——我们一直在使用它,却不知道它是如何工作的。这一次,T先生尽量用简单的语言解释清楚。
1 搜索引擎原理简介
搜索引擎的工作原理大致可以分为三个部分:
1.爬取:在网上检索内容,找到内容对应的代码/URL。
2.索引:将爬取过程中找到的内容有序存储;如果页面在索引中,它将显示为相关的搜索结果。
3.排名:按相关性降序排列搜索结果。
在抓取过程中,搜索引擎通过一组程序(称为“爬虫”或“蜘蛛”)发现/更新互联网上的内容。所谓内容,可以指网页、图片、视频、网页附件——它们都有一个叫做统一资源定位器(Uniform Resource Locator,URL)的“ID号”。爬虫找到网页内容和对应的URL并存储,然后根据网页内容中的其他URL跳转到其他内容。
搜索引擎存储的内容就像一本字典,索引是拼音或部首搜索。爬取的内容需要分析并存储在索引数据库中。专门分析数据库中网页的文本内容。
当用户进行搜索时,搜索引擎会从索引数据库中检索高度相关的内容并对其进行排名。这种基于相关性对搜索结果进行排名的方法称为排名。一般认为网站的排名越高,搜索引擎认为网站与查询的相关性越高。
1.1 告诉搜索引擎:“过来”
有时公司不希望某些页面出现在搜索引擎中,例如页内广告、过期内容、私有内容等。网站开发人员可以使用一些方法(例如robots.txt)来告诉爬虫不要爬取此类页面的内容。当然,公司在推广产品时,肯定希望产品描述页面被搜索引擎抓取。因此,如果您希望内容被搜索引擎发现,首先要确保它可以被爬虫访问并且可以索引。否则,就像隐身一样。
以谷歌为例,使用高级搜索方式“site:”可以返回一个站点在谷歌索引中的所有结果。通过谷歌搜索控制台(Google Search Console)还可以实现更准确的索引结果查询和监控。这其实是搜索引擎优化的第一步:检查你的网页是否被索引,哪些被索引,重要页面是否被索引。
抓取预算
抓取预算(crawl budget)可以理解为搜索引擎爬虫在离开一个站点之前抓取的平均网址数。合理的爬取预算可以让爬虫爬取更重要的页面,避免在无用的信息/页面上浪费时间。同时,这也意味着用户搜索时内容相关性可以更加集中。
用户在构建网站时仍然需要通过HTML代码来指导搜索引擎如何处理你的页面。这样的指令称为元指令或元标记。它们通常存在于 HTML 页面的标签中。有兴趣的读者可以自行了解。
1.2 搜索引擎:坐成一排吃水果水果
搜索引擎用于根据内容相关性对结果进行排名的技术基于复杂的算法。谷歌几乎每周甚至每隔几天都会更新其排名算法。如今,机器学习和自然语言处理也在帮助搜索引擎获得更好的排名。
RankBrain 是 Google 搜索引擎核心算法的机器学习组件。机器学习也是一种通过大量数据不断改进预测的技术。换句话说,它总是在学习。因为它一直在学习,所以搜索排名结果会不断提高。
用户与搜索结果的交互也会影响搜索引擎的改进。一般有四个因素:
这四个指标构成参与度指标。
不同的搜索引擎需要自己的 SEO
不同的搜索引擎有不同的排名算法。理论上,国际产品的本地化需要针对不同的搜索引擎实施SEO策略,但谷歌占据了国际市场的绝大部分份额。在预算有限的情况下,产品优先为谷歌做SEO。但放眼中国大陆,SEO需要瞄准百度。
读完后,公司可以通过一些方法让自己的网站被搜索引擎捕获,检测网站的流量。接下来,T先生将介绍如何合理安排网站的内容,让用户在使用关键词进行搜索时,网站能被搜索引擎准确捕捉并呈现给用户- 满意的内容。
2 关键词研究
在搜索引擎输入框中输入关键词,回车,会呈现上千条结果,而我们往往只浏览前一两页的结果。
关键词研究有助于产品本地化过程,提高对目标市场的了解,了解客户如何搜索内容、服务和产品。一般关键词研究主要是回答以下三个问题:
人们搜索什么?
有多少人搜索过它?
想要的信息如何呈现?
在我们进行关键词 研究以优化搜索结果之前,我们需要知道的第一件事是,我们的产品是做什么的?我们的客户是什么样的?我们的目标是什么(高点击率?高销量?高下载量?)?
例如,美国西雅图的一家素食无麸质“健康”冰淇淋连锁店计划进行 SEO。需要考虑的关键点是什么?
人们在寻找什么冰淇淋、甜点、小吃?
谁在搜索这些产品?
人们什么时候在寻找冰淇淋、小吃、甜点等?
人们如何找到冰淇淋?
人们为什么要寻找冰淇淋?
潜在客户在哪里 - 本地?全国?全球?
虽然产品制造商有 10,000 种方式来宣传他们的产品,但重要的是客户的搜索方式。有一个用于分析 关键词 搜索的工具。输入一个关键词后,会给出几个相似的关键词/短语,并呈现它们的月平均搜索量变化图。
2.1 关键词,长尾,季节和地区
数量关系
关键词 和平均每月搜索频率符合长尾理论。 20% 的 关键词 每月的搜索量可以达到 10 万次或更多,而其余 80% 的 关键词(它们是长尾)的平均每月搜索量可能不到 1 万次。因此,专注于几个关键词进行内容优化是一个合理的选择。
同时,大厂已经占据了最高频率关键词。作为小型企业/初创公司,选择频率稍低的关键词/短语会获得更好的收益效果。例如,一家小型冰淇淋店完全有理由放弃冰淇淋等高频词,并投资于更具体的关键词如有机牛奶和*敏*感*词*淇淋进行优化。
季节和地区也可能影响 关键词 研究。例如,《送给女朋友的圣诞礼物》的检索量在10-12月势必会大幅增加。提前计划更新内容 网站 可以让企业抢占先机。谷歌的关键词分析工具Google Keyword Planner,可以细化到市、省、国家三级,让开发者进行关键词研究。例如,半挂车在德克萨斯更常被称为“大型钻机”,在纽约被称为“拖拉机拖车”,显示了术语对 SEO 策略的影响。
2.2 消费者目的
谷歌将用户的搜索行为概括为大致四种,分别对应用户的各种检索目的,即:
当用户把目的放在输入框的搜索格式上时,谷歌总结了以下五种:
根据以上几类,可以绘制出更精细的用户意图,进而布局SEO策略。自搜索引擎诞生以来,全球所有互联网用户的搜索行为已经进行了数万亿次。 Google 可以依靠这些数据提供几乎完美的搜索结果,商家也可以使用这些数据进行“完美”的 SEO。
本节中的信息取自 Google 质量评估指南:
本文文章T先生分两章简单介绍了SEO的准备工作,下一篇文章与SEO实践相关:通过安排网页内容和代码设计进行SEO 请期待它。谢谢~