话题：搜索引擎主题模型优化 - 自动文章采集器-优采云官网

搜索引擎主题模型优化

全部内容
精华
推荐
我的收藏
关于话题

核心方法:搜索引擎算法中TF-IDF是什么意思

网站优化 • 优采云发表了文章 • 0 个评论 • 141 次浏览 • 2022-09-21 22:05 • 来自相关话题

　　核心方法:搜索引擎算法中TF-IDF是什么意思
　　真正掌握seo优化技术的唯一途径是充分了解搜索引擎算法，所以在学习seo技术之初，要不断地从浅入深地构建这方面更专业的认知。更深。在seo基础学习中，如果对搜索引擎不了解和了解，确实是不可能通过纯白帽seo完成一个网站优化的。今天wp自学笔记和小伙伴们分享一下TF-IDF在搜索引擎算法中是什么意思？以下内容转载自百度百科。
　　
　　TF-IDF（词频-逆文档频率）是一种常用的信息检索和数据挖掘加权技术。 TF 是词频，IDF 是逆文档频率。 TF-IDF 是一种统计方法，用于评估单词对文档集或语料库中的一个文档的重要性。一个词的重要性与它在文档中出现的次数成正比，但与它在语料库中出现的频率成反比。搜索引擎经常应用各种形式的 TF-IDF 加权作为文档和用户查询之间相关程度的度量或评级。除了 TF-IDF，互联网上的搜索引擎还使用基于链接分析的排名方法来确定文档在搜索结果中出现的顺序。
　　TFIDF的主要思想是：如果一个词或词组在一个文章中频繁出现TF，而在其他文章中很少出现，则认为这个词或词组有Good category辨别能力，适合分类。 TFIDF其实就是：TF * IDF，TF Term Frequency，IDF逆文档频率。 TF 表示词条在文档 d 中出现的频率。 IDF的主要思想是：如果收录term t的文档较少，即n越小，IDF越大，说明term t有很好的分类能力。如果某类文档 C 中收录词条 t 的文档数为 m，其他类型中收录 t 的文档总数为 k，显然收录 t 的文档数为 n=m+k。当m很大时，n也很大。，根据IDF公式得到的IDF值会很小，说明条目t的分类能力不强。但实际上，如果某个词条在一类文档中频繁出现，则说明该词条能够很好地代表该类文本的特征，应该赋予此类词条更高的权重，并选择该词条作为该类文本的特征词将其与其他类型的文档区分开来。这就是 IDF 的不足之处。在给定文档中，词频 (TF) 是指给定词在文档中出现的频率。这个数字被标准化为术语计数，以防止它偏向长文件。（同一个词在长文件中的字数可能比在短文件中的字数高，不管这个词是否重要。）
　　TFIDF算法是基于这样一个假设，即对于区分文档最有意义的词应该是那些在整个文档集合中经常出现在文档中而在其他文档中不经常出现的词，所以如果特征空间坐标系取TF词频作为衡量标准，可以反映相似文本的特征。此外，考虑到词区分不同类别的能力，TFIDF 方法认为词的文本频率越小，其区分不同类别文本的能力就越大。因此，引入了逆文本频率IDF的概念，将TF与IDF的乘积作为特征空间坐标系的值度量，用于调整权重TF。调整权重的目的是突出重要的词，抑制次要的词。单词。但本质上IDF是一种试图抑制噪声的加权，简单地认为文本频率低的词更重要，文本频率高的词没用是不完全正确的。 IDF结构简单，不能有效反映词的重要性和特征词的分布，不能很好地发挥调整权重的功能，因此TFIDF方法的准确率不是很高。
　　
　　另外，单词的位置信息并没有反映在TFIDF算法中。对于 Web 文档，权重计算方法应该反映 HTML 的结构特征。特征词在不同的标签中反映文章的内容不同，其权重的计算方法也应该不同。因此，应为网页不同位置的特征词分配不同的系数，然后乘以特征词的词频，以提高文本表示的效果。
　　TF-IDF模型是搜索引擎等实际应用中广泛使用的信息检索模型，但对于TF-IDF模型一直存在各种疑问。本文是针对信息检索问题的基于条件概率的 box-and-ball 模型。核心思想是将“查询字符串q与文档d的匹配度问题”转化为“查询字符串q来自文档d的条件概率问题”。它从概率的角度定义了比 TF-IDF 模型表达的信息检索问题更明确的匹配目标。该模型可以结合TF-IDF模型，一方面解释其合理性，另一方面发现其缺陷。此外，该模型还可以解释 PageRank 的含义，以及为什么 PageRank 权重和 TF-IDF 权重之间存在乘积关系。
　　事实:搜索引擎优化？和俺本地化有什么关系？(一)
　　前言
　　如果你去一些LSP（Language Service Provider）的官网，你会发现他们经常在网站本地化业务下覆盖一个叫“搜索引擎优化”的服务。
　　T先生文章的这篇文章将简要介绍搜索引擎优化（SEO）的概念及其与本地化的关系，然后介绍SEO的实现方法。 T先生预计用2-3次推送来介绍SEO的难点。
　　本文以科普为主。所有信息均来自互联网采集、汇总、筛选和汇编。如有错误请后台留言。感谢您的支持。
　　本地化的概念可以简单地解释为“调整产品以适应目标区域用户的使用习惯”。本地化的存在是为了服务于“最大化产品利润”的目的。对于国际产品，本地化过程中最重要的一点（一) 是语言。
　　Common Sense Advisory (CSA) 和 Lionbridge 曾进行过市场调查，发现 72.4% 的消费者倾向于购买以母语提供产品信息的产品。 72.1% 的消费者在购买产品时只浏览网站母语的内容。
　　本地化行业标准委员会 (LISA) 的一项研究还指出，公司每在本地化内容上花费 1 美元，就可以收回 25 美元。
　　上述两项研究强烈支持内容本地化的重要性，但它们忽略了一点：如何让您精心本地化的产品被广泛的潜在用户群发现？
　　在互联网时代，消费者查找信息的首选是使用搜索引擎。但是，搜索引擎不一定会立即在搜索结果的首页上展示公司的产品。如果我们自己的产品不能出现在首页怎么办——换个角度看，作为消费者，我们需要多少耐心和时间来翻页？
　　这就是需要搜索引擎优化 (SEO) 的地方。这是一种通过提高在无偿搜索引擎结果中的排名来增加网站流量和品牌曝光度的技术。
　　SEO 不仅依靠搜索引擎原理来提高排名，更重要的是，它研究人们在网上搜索什么，人们期望得到什么样的答案，人们使用什么样的关键词，以及想要获得服务内容的人。如果了解所有这些，公司就可以定制他们的产品，以更好地匹配潜在用户群的搜索习惯——理想情况下，用户会在主页上看到您为他们提供的内容。
　　除了了解用户之外，您还需要了解机器。搜索引擎就像一个黑匣子——我们一直在使用它，却不知道它是如何工作的。这一次，T先生尽量用简单的语言解释清楚。
　　1 搜索引擎原理简介
　　搜索引擎的工作原理大致可以分为三个部分：
　　1.爬取：在网上检索内容，找到内容对应的代码/URL。
　　2.索引：将爬取过程中找到的内容有序存储；如果页面在索引中，它将显示为相关的搜索结果。
　　3.排名：按相关性降序排列搜索结果。
　　在抓取过程中，搜索引擎通过一组程序（称为“爬虫”或“蜘蛛”）发现/更新互联网上的内容。所谓内容，可以指网页、图片、视频、网页附件——它们都有一个叫做统一资源定位器（Uniform Resource Locator，URL）的“ID号”。爬虫找到网页内容和对应的URL并存储，然后根据网页内容中的其他URL跳转到其他内容。
　　搜索引擎存储的内容就像一本字典，索引是拼音或部首搜索。爬取的内容需要分析并存储在索引数据库中。专门分析数据库中网页的文本内容。
　　当用户进行搜索时，搜索引擎会从索引数据库中检索高度相关的内容并对其进行排名。这种基于相关性对搜索结果进行排名的方法称为排名。一般认为网站的排名越高，搜索引擎认为网站与查询的相关性越高。
　　
　　1.1 告诉搜索引擎：“过来”
　　有时公司不希望某些页面出现在搜索引擎中，例如页内广告、过期内容、私有内容等。网站开发人员可以使用一些方法（例如robots.txt）来告诉爬虫不要爬取此类页面的内容。当然，公司在推广产品时，肯定希望产品描述页面被搜索引擎抓取。因此，如果您希望内容被搜索引擎发现，首先要确保它可以被爬虫访问并且可以索引。否则，就像隐身一样。
　　以谷歌为例，使用高级搜索方式“site:”可以返回一个站点在谷歌索引中的所有结果。通过谷歌搜索控制台（Google Search Console）还可以实现更准确的索引结果查询和监控。这其实是搜索引擎优化的第一步：检查你的网页是否被索引，哪些被索引，重要页面是否被索引。
　　抓取预算
　　抓取预算（crawl budget）可以理解为搜索引擎爬虫在离开一个站点之前抓取的平均网址数。合理的爬取预算可以让爬虫爬取更重要的页面，避免在无用的信息/页面上浪费时间。同时，这也意味着用户搜索时内容相关性可以更加集中。
　　用户在构建网站时仍然需要通过HTML代码来指导搜索引擎如何处理你的页面。这样的指令称为元指令或元标记。它们通常存在于 HTML 页面的标签中。有兴趣的读者可以自行了解。
　　1.2 搜索引擎：坐成一排吃水果水果
　　搜索引擎用于根据内容相关性对结果进行排名的技术基于复杂的算法。谷歌几乎每周甚至每隔几天都会更新其排名算法。如今，机器学习和自然语言处理也在帮助搜索引擎获得更好的排名。
　　RankBrain 是 Google 搜索引擎核心算法的机器学习组件。机器学习也是一种通过大量数据不断改进预测的技术。换句话说，它总是在学习。因为它一直在学习，所以搜索排名结果会不断提高。
　　用户与搜索结果的交互也会影响搜索引擎的改进。一般有四个因素：
　　这四个指标构成参与度指标。
　　不同的搜索引擎需要自己的 SEO
　　不同的搜索引擎有不同的排名算法。理论上，国际产品的本地化需要针对不同的搜索引擎实施SEO策略，但谷歌占据了国际市场的绝大部分份额。在预算有限的情况下，产品优先为谷歌做SEO。但放眼中国大陆，SEO需要瞄准百度。
　　读完后，公司可以通过一些方法让自己的网站被搜索引擎捕获，检测网站的流量。接下来，T先生将介绍如何合理安排网站的内容，让用户在使用关键词进行搜索时，网站能被搜索引擎准确捕捉并呈现给用户- 满意的内容。
　　2 关键词研究
　　在搜索引擎输入框中输入关键词，回车，会呈现上千条结果，而我们往往只浏览前一两页的结果。
　　关键词研究有助于产品本地化过程，提高对目标市场的了解，了解客户如何搜索内容、服务和产品。一般关键词研究主要是回答以下三个问题：
　　人们搜索什么？
　　有多少人搜索过它？
　　想要的信息如何呈现？
　　
　　在我们进行关键词研究以优化搜索结果之前，我们需要知道的第一件事是，我们的产品是做什么的？我们的客户是什么样的？我们的目标是什么（高点击率？高销量？高下载量？）？
　　例如，美国西雅图的一家素食无麸质“健康”冰淇淋连锁店计划进行 SEO。需要考虑的关键点是什么？
　　人们在寻找什么冰淇淋、甜点、小吃？
　　谁在搜索这些产品？
　　人们什么时候在寻找冰淇淋、小吃、甜点等？
　　人们如何找到冰淇淋？
　　人们为什么要寻找冰淇淋？
　　潜在客户在哪里 - 本地？全国？全球？
　　虽然产品制造商有 10,000 种方式来宣传他们的产品，但重要的是客户的搜索方式。有一个用于分析关键词搜索的工具。输入一个关键词后，会给出几个相似的关键词/短语，并呈现它们的月平均搜索量变化图。
　　2.1 关键词，长尾，季节和地区
　　数量关系
　　关键词和平均每月搜索频率符合长尾理论。 20% 的关键词每月的搜索量可以达到 10 万次或更多，而其余 80% 的关键词（它们是长尾）的平均每月搜索量可能不到 1 万次。因此，专注于几个关键词进行内容优化是一个合理的选择。
　　同时，大厂已经占据了最高频率关键词。作为小型企业/初创公司，选择频率稍低的关键词/短语会获得更好的收益效果。例如，一家小型冰淇淋店完全有理由放弃冰淇淋等高频词，并投资于更具体的关键词如有机牛奶和水果冰淇淋进行优化。
　　季节和地区也可能影响关键词研究。例如，《送给女朋友的圣诞礼物》的检索量在10-12月势必会大幅增加。提前计划更新内容网站可以让企业抢占先机。谷歌的关键词分析工具Google Keyword Planner，可以细化到市、省、国家三级，让开发者进行关键词研究。例如，半挂车在德克萨斯更常被称为“大型钻机”，在纽约被称为“拖拉机拖车”，显示了术语对 SEO 策略的影响。
　　2.2 消费者目的
　　谷歌将用户的搜索行为概括为大致四种，分别对应用户的各种检索目的，即：
　　当用户把目的放在输入框的搜索格式上时，谷歌总结了以下五种：
　　根据以上几类，可以绘制出更精细的用户意图，进而布局SEO策略。自搜索引擎诞生以来，全球所有互联网用户的搜索行为已经进行了数万亿次。 Google 可以依靠这些数据提供几乎完美的搜索结果，商家也可以使用这些数据进行“完美”的 SEO。
　　本节中的信息取自 Google 质量评估指南：
　　本文文章T先生分两章简单介绍了SEO的准备工作，下一篇文章与SEO实践相关：通过安排网页内容和代码设计进行SEO 请期待它。谢谢~ 查看全部

　　TF-IDF（词频-逆文档频率）是一种常用的信息检索和数据挖掘加权技术。 TF 是词频，IDF 是逆文档频率。 TF-IDF 是一种统计方法，用于评估单词对文档集或语料库中的一个文档的重要性。一个词的重要性与它在文档中出现的次数成正比，但与它在语料库中出现的频率成反比。搜索引擎经常应用各种形式的 TF-IDF 加权作为文档和用户查询之间相关程度的度量或评级。除了 TF-IDF，互联网上的搜索引擎还使用基于链接分析的排名方法来确定文档在搜索结果中出现的顺序。
　　TFIDF的主要思想是：如果一个词或词组在一个文章中频繁出现TF，而在其他文章中很少出现，则认为这个词或词组有Good category辨别能力，适合分类。 TFIDF其实就是：TF * IDF，TF Term Frequency，IDF逆文档频率。 TF 表示词条在文档 d 中出现的频率。 IDF的主要思想是：如果收录term t的文档较少，即n越小，IDF越大，说明term t有很好的分类能力。如果某类文档 C 中收录词条 t 的文档数为 m，其他类型中收录 t 的文档总数为 k，显然收录 t 的文档数为 n=m+k。当m很大时，n也很大。，根据IDF公式得到的IDF值会很小，说明条目t的分类能力不强。但实际上，如果某个词条在一类文档中频繁出现，则说明该词条能够很好地代表该类文本的特征，应该赋予此类词条更高的权重，并选择该词条作为该类文本的特征词将其与其他类型的文档区分开来。这就是 IDF 的不足之处。在给定文档中，词频 (TF) 是指给定词在文档中出现的频率。这个数字被标准化为术语计数，以防止它偏向长文件。（同一个词在长文件中的字数可能比在短文件中的字数高，不管这个词是否重要。）
　　TFIDF算法是基于这样一个假设，即对于区分文档最有意义的词应该是那些在整个文档集合中经常出现在文档中而在其他文档中不经常出现的词，所以如果特征空间坐标系取TF词频作为衡量标准，可以反映相似文本的特征。此外，考虑到词区分不同类别的能力，TFIDF 方法认为词的文本频率越小，其区分不同类别文本的能力就越大。因此，引入了逆文本频率IDF的概念，将TF与IDF的乘积作为特征空间坐标系的值度量，用于调整权重TF。调整权重的目的是突出重要的词，抑制次要的词。单词。但本质上IDF是一种试图抑制噪声的加权，简单地认为文本频率低的词更重要，文本频率高的词没用是不完全正确的。 IDF结构简单，不能有效反映词的重要性和特征词的分布，不能很好地发挥调整权重的功能，因此TFIDF方法的准确率不是很高。
　　

　　另外，单词的位置信息并没有反映在TFIDF算法中。对于 Web 文档，权重计算方法应该反映 HTML 的结构特征。特征词在不同的标签中反映文章的内容不同，其权重的计算方法也应该不同。因此，应为网页不同位置的特征词分配不同的系数，然后乘以特征词的词频，以提高文本表示的效果。
　　TF-IDF模型是搜索引擎等实际应用中广泛使用的信息检索模型，但对于TF-IDF模型一直存在各种疑问。本文是针对信息检索问题的基于条件概率的 box-and-ball 模型。核心思想是将“查询字符串q与文档d的匹配度问题”转化为“查询字符串q来自文档d的条件概率问题”。它从概率的角度定义了比 TF-IDF 模型表达的信息检索问题更明确的匹配目标。该模型可以结合TF-IDF模型，一方面解释其合理性，另一方面发现其缺陷。此外，该模型还可以解释 PageRank 的含义，以及为什么 PageRank 权重和 TF-IDF 权重之间存在乘积关系。
　　事实:搜索引擎优化？和俺本地化有什么关系？(一)
　　前言
　　如果你去一些LSP（Language Service Provider）的官网，你会发现他们经常在网站本地化业务下覆盖一个叫“搜索引擎优化”的服务。
　　T先生文章的这篇文章将简要介绍搜索引擎优化（SEO）的概念及其与本地化的关系，然后介绍SEO的实现方法。 T先生预计用2-3次推送来介绍SEO的难点。
　　本文以科普为主。所有信息均来自互联网采集、汇总、筛选和汇编。如有错误请后台留言。感谢您的支持。
　　本地化的概念可以简单地解释为“调整产品以适应目标区域用户的使用习惯”。本地化的存在是为了服务于“最大化产品利润”的目的。对于国际产品，本地化过程中最重要的一点（一) 是语言。
　　Common Sense Advisory (CSA) 和 Lionbridge 曾进行过市场调查，发现 72.4% 的消费者倾向于购买以母语提供产品信息的产品。 72.1% 的消费者在购买产品时只浏览网站母语的内容。
　　本地化行业标准委员会 (LISA) 的一项研究还指出，公司每在本地化内容上花费 1 美元，就可以收回 25 美元。
　　上述两项研究强烈支持内容本地化的重要性，但它们忽略了一点：如何让您精心本地化的产品被广泛的潜在用户群发现？
　　在互联网时代，消费者查找信息的首选是使用搜索引擎。但是，搜索引擎不一定会立即在搜索结果的首页上展示公司的产品。如果我们自己的产品不能出现在首页怎么办——换个角度看，作为消费者，我们需要多少耐心和时间来翻页？
　　这就是需要搜索引擎优化 (SEO) 的地方。这是一种通过提高在无偿搜索引擎结果中的排名来增加网站流量和品牌曝光度的技术。
　　SEO 不仅依靠搜索引擎原理来提高排名，更重要的是，它研究人们在网上搜索什么，人们期望得到什么样的答案，人们使用什么样的关键词，以及想要获得服务内容的人。如果了解所有这些，公司就可以定制他们的产品，以更好地匹配潜在用户群的搜索习惯——理想情况下，用户会在主页上看到您为他们提供的内容。
　　除了了解用户之外，您还需要了解机器。搜索引擎就像一个黑匣子——我们一直在使用它，却不知道它是如何工作的。这一次，T先生尽量用简单的语言解释清楚。
　　1 搜索引擎原理简介
　　搜索引擎的工作原理大致可以分为三个部分：
　　1.爬取：在网上检索内容，找到内容对应的代码/URL。
　　2.索引：将爬取过程中找到的内容有序存储；如果页面在索引中，它将显示为相关的搜索结果。
　　3.排名：按相关性降序排列搜索结果。
　　在抓取过程中，搜索引擎通过一组程序（称为“爬虫”或“蜘蛛”）发现/更新互联网上的内容。所谓内容，可以指网页、图片、视频、网页附件——它们都有一个叫做统一资源定位器（Uniform Resource Locator，URL）的“ID号”。爬虫找到网页内容和对应的URL并存储，然后根据网页内容中的其他URL跳转到其他内容。
　　搜索引擎存储的内容就像一本字典，索引是拼音或部首搜索。爬取的内容需要分析并存储在索引数据库中。专门分析数据库中网页的文本内容。
　　当用户进行搜索时，搜索引擎会从索引数据库中检索高度相关的内容并对其进行排名。这种基于相关性对搜索结果进行排名的方法称为排名。一般认为网站的排名越高，搜索引擎认为网站与查询的相关性越高。
　　

　　1.1 告诉搜索引擎：“过来”
　　有时公司不希望某些页面出现在搜索引擎中，例如页内广告、过期内容、私有内容等。网站开发人员可以使用一些方法（例如robots.txt）来告诉爬虫不要爬取此类页面的内容。当然，公司在推广产品时，肯定希望产品描述页面被搜索引擎抓取。因此，如果您希望内容被搜索引擎发现，首先要确保它可以被爬虫访问并且可以索引。否则，就像隐身一样。
　　以谷歌为例，使用高级搜索方式“site:”可以返回一个站点在谷歌索引中的所有结果。通过谷歌搜索控制台（Google Search Console）还可以实现更准确的索引结果查询和监控。这其实是搜索引擎优化的第一步：检查你的网页是否被索引，哪些被索引，重要页面是否被索引。
　　抓取预算
　　抓取预算（crawl budget）可以理解为搜索引擎爬虫在离开一个站点之前抓取的平均网址数。合理的爬取预算可以让爬虫爬取更重要的页面，避免在无用的信息/页面上浪费时间。同时，这也意味着用户搜索时内容相关性可以更加集中。
　　用户在构建网站时仍然需要通过HTML代码来指导搜索引擎如何处理你的页面。这样的指令称为元指令或元标记。它们通常存在于 HTML 页面的标签中。有兴趣的读者可以自行了解。
　　1.2 搜索引擎：坐成一排吃水果水果
　　搜索引擎用于根据内容相关性对结果进行排名的技术基于复杂的算法。谷歌几乎每周甚至每隔几天都会更新其排名算法。如今，机器学习和自然语言处理也在帮助搜索引擎获得更好的排名。
　　RankBrain 是 Google 搜索引擎核心算法的机器学习组件。机器学习也是一种通过大量数据不断改进预测的技术。换句话说，它总是在学习。因为它一直在学习，所以搜索排名结果会不断提高。
　　用户与搜索结果的交互也会影响搜索引擎的改进。一般有四个因素：
　　这四个指标构成参与度指标。
　　不同的搜索引擎需要自己的 SEO
　　不同的搜索引擎有不同的排名算法。理论上，国际产品的本地化需要针对不同的搜索引擎实施SEO策略，但谷歌占据了国际市场的绝大部分份额。在预算有限的情况下，产品优先为谷歌做SEO。但放眼中国大陆，SEO需要瞄准百度。
　　读完后，公司可以通过一些方法让自己的网站被搜索引擎捕获，检测网站的流量。接下来，T先生将介绍如何合理安排网站的内容，让用户在使用关键词进行搜索时，网站能被搜索引擎准确捕捉并呈现给用户- 满意的内容。
　　2 关键词研究
　　在搜索引擎输入框中输入关键词，回车，会呈现上千条结果，而我们往往只浏览前一两页的结果。
　　关键词研究有助于产品本地化过程，提高对目标市场的了解，了解客户如何搜索内容、服务和产品。一般关键词研究主要是回答以下三个问题：
　　人们搜索什么？
　　有多少人搜索过它？
　　想要的信息如何呈现？
　　

　　在我们进行关键词研究以优化搜索结果之前，我们需要知道的第一件事是，我们的产品是做什么的？我们的客户是什么样的？我们的目标是什么（高点击率？高销量？高下载量？）？
　　例如，美国西雅图的一家素食无麸质“健康”冰淇淋连锁店计划进行 SEO。需要考虑的关键点是什么？
　　人们在寻找什么冰淇淋、甜点、小吃？
　　谁在搜索这些产品？
　　人们什么时候在寻找冰淇淋、小吃、甜点等？
　　人们如何找到冰淇淋？
　　人们为什么要寻找冰淇淋？
　　潜在客户在哪里 - 本地？全国？全球？
　　虽然产品制造商有 10,000 种方式来宣传他们的产品，但重要的是客户的搜索方式。有一个用于分析关键词搜索的工具。输入一个关键词后，会给出几个相似的关键词/短语，并呈现它们的月平均搜索量变化图。
　　2.1 关键词，长尾，季节和地区
　　数量关系
　　关键词和平均每月搜索频率符合长尾理论。 20% 的关键词每月的搜索量可以达到 10 万次或更多，而其余 80% 的关键词（它们是长尾）的平均每月搜索量可能不到 1 万次。因此，专注于几个关键词进行内容优化是一个合理的选择。
　　同时，大厂已经占据了最高频率关键词。作为小型企业/初创公司，选择频率稍低的关键词/短语会获得更好的收益效果。例如，一家小型冰淇淋店完全有理由放弃冰淇淋等高频词，并投资于更具体的关键词如有机牛奶和水果冰淇淋进行优化。
　　季节和地区也可能影响关键词研究。例如，《送给女朋友的圣诞礼物》的检索量在10-12月势必会大幅增加。提前计划更新内容网站可以让企业抢占先机。谷歌的关键词分析工具Google Keyword Planner，可以细化到市、省、国家三级，让开发者进行关键词研究。例如，半挂车在德克萨斯更常被称为“大型钻机”，在纽约被称为“拖拉机拖车”，显示了术语对 SEO 策略的影响。
　　2.2 消费者目的
　　谷歌将用户的搜索行为概括为大致四种，分别对应用户的各种检索目的，即：
　　当用户把目的放在输入框的搜索格式上时，谷歌总结了以下五种：
　　根据以上几类，可以绘制出更精细的用户意图，进而布局SEO策略。自搜索引擎诞生以来，全球所有互联网用户的搜索行为已经进行了数万亿次。 Google 可以依靠这些数据提供几乎完美的搜索结果，商家也可以使用这些数据进行“完美”的 SEO。
　　本节中的信息取自 Google 质量评估指南：
　　本文文章T先生分两章简单介绍了SEO的准备工作，下一篇文章与SEO实践相关：通过安排网页内容和代码设计进行SEO 请期待它。谢谢~

搜索引擎主题模型优化，关键词排名，精准引流！

网站优化 • 优采云发表了文章 • 0 个评论 • 155 次浏览 • 2022-09-10 16:23 • 来自相关话题

　　搜索引擎主题模型优化，关键词排名，精准引流！
　　搜索引擎主题模型优化，关键词排名，搜索引擎精准引流，
　　1、关键词大面积堆砌,类似道琼斯3000多个词，创业板2000多个词，笔者至今见过1/3这么堆砌的，关键词大面积堆砌的，后期基本都会被屏蔽。
　　2、专业术语含糊不清,直接会导致流量推后。比如$mbo，笔者见过的用的最多的一次是不是$mbo$，
　　3、关键词大面积相似优化,这个最容易被屏蔽.如何基本分清专业术语的相似度？一般来说，高度相似,如$mbo$,$mbo$这种效果会更明显，
　　4、关键词的大面积模糊性优化,也容易被屏蔽.比如08年钢铁行业热门的时候，基本一个词使用5%的专业术语，基本都能满足用户需求，可用，像后来09年,14年期间钢铁行业市场低迷，就算热门关键词，专业术语都设置很高比例。
　　5、关键词大面积相似优化，关键词堆砌,基本上后期就没有流量推进效果了，因为关键词出现太多,搜索引擎会反感你的关键词。所以基本不建议使用。
　　
　　6、两个关键词差距过大,很多人写广告文案,肯定要全篇不同的关键词，是这样吗？笔者认为优化关键词最好控制在20个左右，这个关键词一定要设置的有争议性，不要随意使用一些热门关键词,因为没有什么用。
　　7、关键词拼贴优化大面积拼贴优化，直接影响搜索引擎主题模型排名位置，基本上40%就over了。
　　8、网站越发布完整，页面越详细，关键词排名靠前的可能性就越高，但是这需要一定的工作量，用的好,可以获得极大收益。
　　9、大面积堆砌关键词，可以更好的起到关键词堆砌的效果，建议加上#.#..#标识，基本的关键词堆砌可以起到效果。
　　1
　　0、大面积堆砌关键词，是很难起到效果的，基本上得不偿失，基本上你的网站做的非常完整,页面又详细，并且优化非常好，但是关键词堆砌没有那么容易实现。
　　1、大面积堆砌关键词，可以通过文章内容进行过滤处理，但是这种方法，更好实现，通过笔者与多家企业测试总结，随便发布内容测试即可做，可是大面积堆砌，
　　
　　2、大面积堆砌关键词，更好的一种，但是现在大多数人把大面积堆砌关键词作为seo中拼接关键词的一种方法，基本上没有什么用处。
　　如何关键词提升--获取高质量的流量无论是使用搜索引擎优化的核心，还是核心竞争力的本质，核心竞争力要获取高质量的流量，
　　1、提升转化，
　　2、增加销售额，
　　3、增加品牌知名度，
　　4、增加客户体验感，
　　5、提升用户满意度，以便以后的客户拓展。查看全部

　　搜索引擎主题模型优化，关键词排名，精准引流！
　　搜索引擎主题模型优化，关键词排名，搜索引擎精准引流，
　　1、关键词大面积堆砌,类似道琼斯3000多个词，创业板2000多个词，笔者至今见过1/3这么堆砌的，关键词大面积堆砌的，后期基本都会被屏蔽。
　　2、专业术语含糊不清,直接会导致流量推后。比如$mbo，笔者见过的用的最多的一次是不是$mbo$，
　　3、关键词大面积相似优化,这个最容易被屏蔽.如何基本分清专业术语的相似度？一般来说，高度相似,如$mbo$,$mbo$这种效果会更明显，
　　4、关键词的大面积模糊性优化,也容易被屏蔽.比如08年钢铁行业热门的时候，基本一个词使用5%的专业术语，基本都能满足用户需求，可用，像后来09年,14年期间钢铁行业市场低迷，就算热门关键词，专业术语都设置很高比例。
　　5、关键词大面积相似优化，关键词堆砌,基本上后期就没有流量推进效果了，因为关键词出现太多,搜索引擎会反感你的关键词。所以基本不建议使用。
　　

　　6、两个关键词差距过大,很多人写广告文案,肯定要全篇不同的关键词，是这样吗？笔者认为优化关键词最好控制在20个左右，这个关键词一定要设置的有争议性，不要随意使用一些热门关键词,因为没有什么用。
　　7、关键词拼贴优化大面积拼贴优化，直接影响搜索引擎主题模型排名位置，基本上40%就over了。
　　8、网站越发布完整，页面越详细，关键词排名靠前的可能性就越高，但是这需要一定的工作量，用的好,可以获得极大收益。
　　9、大面积堆砌关键词，可以更好的起到关键词堆砌的效果，建议加上#.#..#标识，基本的关键词堆砌可以起到效果。
　　1
　　0、大面积堆砌关键词，是很难起到效果的，基本上得不偿失，基本上你的网站做的非常完整,页面又详细，并且优化非常好，但是关键词堆砌没有那么容易实现。
　　1、大面积堆砌关键词，可以通过文章内容进行过滤处理，但是这种方法，更好实现，通过笔者与多家企业测试总结，随便发布内容测试即可做，可是大面积堆砌，
　　

　　2、大面积堆砌关键词，更好的一种，但是现在大多数人把大面积堆砌关键词作为seo中拼接关键词的一种方法，基本上没有什么用处。
　　如何关键词提升--获取高质量的流量无论是使用搜索引擎优化的核心，还是核心竞争力的本质，核心竞争力要获取高质量的流量，
　　1、提升转化，
　　2、增加销售额，
　　3、增加品牌知名度，
　　4、增加客户体验感，
　　5、提升用户满意度，以便以后的客户拓展。

搜索引擎主题模型优化有以下几个优势：优化

网站优化 • 优采云发表了文章 • 0 个评论 • 115 次浏览 • 2022-08-27 23:04 • 来自相关话题

　　搜索引擎主题模型优化有以下几个优势：优化
　　搜索引擎主题模型优化作为每天搜索引擎站内优化的最后一步，主要起到提升蜘蛛爬行体验以及从搜索结果中抓取更多信息，或者进一步清除spam带来的流量的功能，提升全站最终的收录和排名。主题模型优化有以下几个优势：首先，从长远看，搜索引擎认为（虽然大部分搜索引擎未必非常重视主题模型优化，但是本文讨论的算法有可能实现）即使降低这一算法的落地实现，通过应用到其他类型的模型中去，搜索引擎也会给以优化搜索整站提供更大的提升空间。
　　其次，搜索引擎大规模存在很多手段来获取搜索结果页面信息，主题模型模型必须运用得当，才能使得某些页面在数量上得到提升，站内的一些很小的功能可能都会影响整个搜索结果页面收录结果，搜索引擎根据影响程度把结果优化到合适的位置。同时，考虑到整个搜索结果页面后可能被搜索结果，搜索引擎可能会发现类似“引擎不知道带来了多少流量但是却无意识下降了自己在结果页面中的相关页面展示”的情况，降低主题模型优化后带来的一些不利影响。
　　
　　最后，搜索引擎根据算法提示，通过其他的手段达到提升整站优化，那么整站优化被动优化。目前，如果要优化搜索结果页面，首先要选择搜索引擎主题模型优化，通过搜索引擎关键词提示和页面主题文本字符覆盖等，通过站内主题优化加速整个站内的内容结构的提升，简要地说即：“内容结构优化+高质量外链+结构优化+外链优化”。关于搜索引擎主题模型优化，更多专业知识可以关注我微信公众号（pco_commu），一起交流。
　　搜索引擎优化模型模型优化是整站优化的重要环节，很多同学总是会卡在这个关键环节上，而不能将之做好，小编总结了以下几个问题：（。
　　1）了解主题模型优化的优势与弊端。主题模型优化是站内优化的最后一步，其优势为搜索引擎更好的抓取、提高全站搜索结果页面收录，通过在搜索结果中加入与网站主题相关的文本，能够起到提升关键词与文本文本质量的目的，并且能够为搜索引擎降低提供更多的蜘蛛爬行体验，提升全站收录排名。主题模型优化弊端是，加入搜索结果页面信息后，搜索引擎会认为，你的网站是做了主题模型优化的，这是搜索引擎认为默认的网站，可能会降低全站搜索引擎对于你网站的收录，虽然这个风险低，但是风险可控。（。
　　
　　2）了解主题模型优化的首选提升方式。关于主题模型优化，首选是直接抓取网站中搜索结果页面，未来的seo目标是上升。
　　3）掌握主题模型优化的主要流程。主题模型优化的主要流程是，页面上加入相关页面文本，通过搜索引擎搜索关键词和收录进行展示，同时优化搜索关键词。
　　4）主题模查看全部

　　搜索引擎主题模型优化有以下几个优势：优化
　　搜索引擎主题模型优化作为每天搜索引擎站内优化的最后一步，主要起到提升蜘蛛爬行体验以及从搜索结果中抓取更多信息，或者进一步清除spam带来的流量的功能，提升全站最终的收录和排名。主题模型优化有以下几个优势：首先，从长远看，搜索引擎认为（虽然大部分搜索引擎未必非常重视主题模型优化，但是本文讨论的算法有可能实现）即使降低这一算法的落地实现，通过应用到其他类型的模型中去，搜索引擎也会给以优化搜索整站提供更大的提升空间。
　　其次，搜索引擎大规模存在很多手段来获取搜索结果页面信息，主题模型模型必须运用得当，才能使得某些页面在数量上得到提升，站内的一些很小的功能可能都会影响整个搜索结果页面收录结果，搜索引擎根据影响程度把结果优化到合适的位置。同时，考虑到整个搜索结果页面后可能被搜索结果，搜索引擎可能会发现类似“引擎不知道带来了多少流量但是却无意识下降了自己在结果页面中的相关页面展示”的情况，降低主题模型优化后带来的一些不利影响。
　　

　　最后，搜索引擎根据算法提示，通过其他的手段达到提升整站优化，那么整站优化被动优化。目前，如果要优化搜索结果页面，首先要选择搜索引擎主题模型优化，通过搜索引擎关键词提示和页面主题文本字符覆盖等，通过站内主题优化加速整个站内的内容结构的提升，简要地说即：“内容结构优化+高质量外链+结构优化+外链优化”。关于搜索引擎主题模型优化，更多专业知识可以关注我微信公众号（pco_commu），一起交流。
　　搜索引擎优化模型模型优化是整站优化的重要环节，很多同学总是会卡在这个关键环节上，而不能将之做好，小编总结了以下几个问题：（。
　　1）了解主题模型优化的优势与弊端。主题模型优化是站内优化的最后一步，其优势为搜索引擎更好的抓取、提高全站搜索结果页面收录，通过在搜索结果中加入与网站主题相关的文本，能够起到提升关键词与文本文本质量的目的，并且能够为搜索引擎降低提供更多的蜘蛛爬行体验，提升全站收录排名。主题模型优化弊端是，加入搜索结果页面信息后，搜索引擎会认为，你的网站是做了主题模型优化的，这是搜索引擎认为默认的网站，可能会降低全站搜索引擎对于你网站的收录，虽然这个风险低，但是风险可控。（。
　　

　　2）了解主题模型优化的首选提升方式。关于主题模型优化，首选是直接抓取网站中搜索结果页面，未来的seo目标是上升。
　　3）掌握主题模型优化的主要流程。主题模型优化的主要流程是，页面上加入相关页面文本，通过搜索引擎搜索关键词和收录进行展示，同时优化搜索关键词。
　　4）主题模

Facebook照片搜索技术揭秘

网站优化 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-08-09 09:29 • 来自相关话题

　　Facebook照片搜索技术揭秘
　　今天的人们使用智能手机拍摄的照片数量激增，这对传统的照片分类方式造成了不小的挑战。我们每个人整理自己手机中存储的海量照片尚且如此困难，对我们来说，要为所有人的照片定义一种更有序的分类方式无疑更是困难重重。
　　每天，人们会将数十亿张照片分享到Facebook，想想你自己向下滚屏查找几天前发布的照片有多麻烦，如果要找几个月甚至几年前的照片呢？为了帮大家更容易找到自己的照片，Facebook照片搜索团队使用机器学习技术深入了解照片内容，改善照片的搜索和获取过程。
　　我们的照片搜索功能基于一种名为Unicorn的内存和闪存索引系统构建，这种系统在设计上可以顺利搜索百亿至万亿级别的用户和其他实体。这套诞生于几年前的系统还驱动着能够理解社交图谱的Graph Search功能，以每天数十亿笔查询的强大能力为Facebook的多个组件提供着支撑。
　　Graph Search的诞生是为了能根据不同社交图谱之间的关系获取相关对象，例如“所有住在旧金山的好友”。该功能的效果很不错，但如果要将查询约束在相关子集范围内，并按照相关性对结果进行排序或计分，进而提供最相关的结果，这种操作中该功能的效果很一般。为了继续完善这种技术，照片搜索团队使用深度神经网络，通过照片中的可视内容和可查找文字改善了图片搜索结果的准确性。
　　关于照片，搜索功能需要了解些什么
　　虽然Imagenet Challenge等竞赛中，图片识别技术的演示已经获得了非常低的错误率，但以Facebook的规模来说，理解照片内容是个很难达成的目标。好在相关应用领域的研究已经为我们提供了最先进的深度学习技术，足以在大范围内处理数十亿张照片，从中提取出可搜索的语义学含义。我们会使用一种名为图片理解引擎的分布式实时系统，分析处理发布到Facebook且公开展示的每张照片。
　　图片理解引擎是一种深度神经网络，其中包含数百万种可学习参数。该引擎以先进的深度残差网络(Deep Residual Network)为基础，使用上千万张带标注照片进行了训练，可自动预测一系列概念，包括场景、物体、动物、景点、着装等。我们可以提前训练模型并将有用的信息存起来，进而以低延迟响应回应用户查询。
　　这个图片理解引擎为语义特征生成的高维浮点向量需要进行索引和搜索，但以Facebook的规模来说，这是一种非常繁重的计算密集型任务。通过使用迭代量化和局部敏感哈希技术，该功能可进一步压缩出数量更少，但依然足以代表大部分语义的“位”。这些紧凑的“位”信息将直接嵌入照片中，借此可直接对照片进行评级、检索、去重等操作。搜索查询过程中，可通过嵌入的信息调整结果的展示顺序。这种技术与文档搜索和检索过程中使用的技术极为类似。Unicorn最初诞生时包含适用于深度神经网络层的多种不同算法，这些算法都是针对大规模图片集的搜索开发而来的。Unicorn可以用对象标签和嵌入语义创建搜索查询所需的索引。目前我们正在开发该技术的新版本，希望能将这种紧凑嵌入的信息用于低延迟检索。
　　在建模过程中使用标签和嵌入物
　　考虑到Facebook的规模以及用户对快速响应查询的预期，我们无法对整个照片库使用过于复杂的评级模型。因此为标签和嵌入物使用了一种相关性模型，该模型可估算相关性并以极低的延迟提供查询结果。
　　概念相关性
　　这个相关性是通过丰富的查询，以及使用相似性函数对比概念集得出的照片概念信号进行评估的。例如，与照片查询中所用的“中央公园”概念直接相关的查询概念，可将与这一话题有关的照片放在首位，并从结果中隐藏所有“离题”的照片。
　　
　　嵌入物相关性
　　通常来说，直接衡量查询与结果之间的概念关联性，这种做法不足以准确地预测相关性。我们创建的相关性模型会使用多模态学习(Multimodal learning)技术了解查询和图片之间的联合嵌入关系。
　　该模型的输入端为查询的嵌入向量和照片结果，而训练目的在于将分类损失降至最低。每个向量将放在一起训练和处理，这一过程会使用多层次的深度神经网络生成一个二进制信号，结果为正意味着匹配，结果为负意味着不匹配。查询和照片的输入向量分别由各自的网络生成，每个网络可能包含不同数量的层。这种网络可以通过嵌入层的参数进行训练并调优。
　　嵌入评级损失
　　上文介绍的这种确定查询和照片之间相关性的方法可以用公式表示为一种分类问题。然而评级的主要目标在于确定照片搜索结果中一系列照片的最佳排序。因此我们在分类公式的基础上使用评级损失(Ranking loss)进行训练，同时为同一个查询生成相关和不相关结果对。
　　如下图所示，模型右侧部分是左侧部分的深层复制(Deep copy)，也就是说，他们共享了相同的网络结构和参数。在训练过程中，我们会将查询与两种结果分别放入模型的左侧和右侧组件中。对于每个查询，相符图片的评级会高于不相符图片。这种训练方式大幅改善了评级质量。
　　将对查询的理解应用给照片搜索
　　Unicorn的照片语料以及图片理解引擎所应用的嵌入物均是可搜索的。如果应用于嵌入物的查询语义生成了更高概率的相关性，除了用于获取照片的索引，查询与检索之间的其他位图会被打断。理解查询语义过程中所使用的重要信号包括：
　　查询意图(Query intents)建议了需要检索哪类场景的照片。例如一个意在检索动物照片的查询需要展示以动物为主题的照片。
　　语法分析(Syntactic analysis)帮助我们理解查询语句的语法构造、词类词性、句法关系，以及语义。搜索查询通常无法识别书面语的语法，而这方面现有的解析程序效果并不好。因此我们使用了最先进的技术，对语言标记器(Speech tagger)中神经网络部分进行有关搜索查询的训练。
　　实体链接(Entity linking)帮助我们找出有关特定概念的照片，通常会将结果以页面的形式呈现，例如不同的地点或电视节目。
　　重写查询知识以提取由查询的语义诠释提供的概念。概念不仅可以扩展查询的含义，而且可以弥补查询和结果之间不同词汇造成的差异。
　　
　　查询嵌入物，这是一种用于代表查询本身的连续向量空间。该技术可在对词汇进行word2vec向量呈现的基础上通过迁移学习(Transfer learning)进行学习，借此将类似的查询映射至就近点。
　　领域和查询重写
　　当某人输入查询按下搜索键，会生成一个请求并发送到我们的服务器。该请求首先到达Web层，在这里会收集有关该查询的不同上下文信息。随后查询以及相关上下文会被发送至一个顶级聚合器层，在这里查询会被重写为一个s-表达式，随后描述该如何从索引服务器获取一系列文档。
　　根据查询意图，会由一个触发器机制使用神经网络模型决定相关联的领域(Vertical)，例如新闻、照片，或视频，这是为了尽可能避免针对相关性较低的领域执行不必要的处理任务。举例来说，如果某人查询“有趣的猫咪”，那么这个意图很明显更希望看到照片领域的结果，此时我们会从搜索结果中排除掉新闻这个领域。
　　如果查询“万圣节”，此时将同时触发有关公开照片及好友的万圣节变装照片的意图，此时将同时搜索公开和社交圈照片两个领域，进而可同时返回搜索者的好友所分享的照片，以及评级为相关的所有公开照片。此时需要进行两个独立的请求，因为社交照片是高度个性化的，需要进行单独的检索和计分。为了保护照片隐私，我们会对搜索结果应用Facebook整个系统都在使用的隐私控制机制。下图演示了一个上端为“社交”，下端为“公开”的模块。
　　第一阶段评级
　　当索引服务器根据s-表达式获取到所需文档后，会交给经过机器学习训练的第一阶段评级器处理。随后分数最高，Top M文档会被发送至Rack aggregator层，借此对所获得的全部文档进行一定程度的合并，随后将Top N结果返回至顶级聚合器层。第一阶段评级的主要目的是确保返回至Rack aggregator的文档与查询依然保持一定的相关性。例如，在查询“狗”时，包含狗的照片无疑会比不包含狗的照片获得更高评级。为了能以毫秒级的速度提供相关照片，我们还对整个复杂的检索和评级阶段的延迟进行了优化。
　　第二阶段的二次评级
　　评级后的文档返回顶级聚合器后，会进行另一轮的信号计算、去重和评级。信号描述了整个结果分布情况的计算结果，借此可发现不符的结果。随后会使用图片指纹对视觉方面类似的文档进行去重。随后会通过深度神经网络进行计分和评级，借此生成最终的照片排序结果。评级之后的照片集（也叫做“模块”）会被发送到结果页面的UI中显示出来。
　　针对照片搜索优化相关性评级
　　对查询与照片，以及照片与查询之间的相关性进行评估，这是照片搜索团队所面临最核心的问题，并且已经远远超出了基于文本的查询重写和匹配技术范畴。为此我们需要进一步全面理解查询、照片作者、照片附带贴文，以及照片中的可视内容。先进的相关性模型通常需要包含顶尖的评级、自然语言处理，以及计算机视觉等技术，借此才能提供相关性更高的搜索结果，为我们塑造一种新颖的图片分类系统，在大规模范围内更快速提供相关性更高的搜索结果。查看全部

　　嵌入物相关性
　　通常来说，直接衡量查询与结果之间的概念关联性，这种做法不足以准确地预测相关性。我们创建的相关性模型会使用多模态学习(Multimodal learning)技术了解查询和图片之间的联合嵌入关系。
　　该模型的输入端为查询的嵌入向量和照片结果，而训练目的在于将分类损失降至最低。每个向量将放在一起训练和处理，这一过程会使用多层次的深度神经网络生成一个二进制信号，结果为正意味着匹配，结果为负意味着不匹配。查询和照片的输入向量分别由各自的网络生成，每个网络可能包含不同数量的层。这种网络可以通过嵌入层的参数进行训练并调优。
　　嵌入评级损失
　　上文介绍的这种确定查询和照片之间相关性的方法可以用公式表示为一种分类问题。然而评级的主要目标在于确定照片搜索结果中一系列照片的最佳排序。因此我们在分类公式的基础上使用评级损失(Ranking loss)进行训练，同时为同一个查询生成相关和不相关结果对。
　　如下图所示，模型右侧部分是左侧部分的深层复制(Deep copy)，也就是说，他们共享了相同的网络结构和参数。在训练过程中，我们会将查询与两种结果分别放入模型的左侧和右侧组件中。对于每个查询，相符图片的评级会高于不相符图片。这种训练方式大幅改善了评级质量。
　　将对查询的理解应用给照片搜索
　　Unicorn的照片语料以及图片理解引擎所应用的嵌入物均是可搜索的。如果应用于嵌入物的查询语义生成了更高概率的相关性，除了用于获取照片的索引，查询与检索之间的其他位图会被打断。理解查询语义过程中所使用的重要信号包括：
　　查询意图(Query intents)建议了需要检索哪类场景的照片。例如一个意在检索动物照片的查询需要展示以动物为主题的照片。
　　语法分析(Syntactic analysis)帮助我们理解查询语句的语法构造、词类词性、句法关系，以及语义。搜索查询通常无法识别书面语的语法，而这方面现有的解析程序效果并不好。因此我们使用了最先进的技术，对语言标记器(Speech tagger)中神经网络部分进行有关搜索查询的训练。
　　实体链接(Entity linking)帮助我们找出有关特定概念的照片，通常会将结果以页面的形式呈现，例如不同的地点或电视节目。
　　重写查询知识以提取由查询的语义诠释提供的概念。概念不仅可以扩展查询的含义，而且可以弥补查询和结果之间不同词汇造成的差异。
　　

　　查询嵌入物，这是一种用于代表查询本身的连续向量空间。该技术可在对词汇进行word2vec向量呈现的基础上通过迁移学习(Transfer learning)进行学习，借此将类似的查询映射至就近点。
　　领域和查询重写
　　当某人输入查询按下搜索键，会生成一个请求并发送到我们的服务器。该请求首先到达Web层，在这里会收集有关该查询的不同上下文信息。随后查询以及相关上下文会被发送至一个顶级聚合器层，在这里查询会被重写为一个s-表达式，随后描述该如何从索引服务器获取一系列文档。
　　根据查询意图，会由一个触发器机制使用神经网络模型决定相关联的领域(Vertical)，例如新闻、照片，或视频，这是为了尽可能避免针对相关性较低的领域执行不必要的处理任务。举例来说，如果某人查询“有趣的猫咪”，那么这个意图很明显更希望看到照片领域的结果，此时我们会从搜索结果中排除掉新闻这个领域。
　　如果查询“万圣节”，此时将同时触发有关公开照片及好友的万圣节变装照片的意图，此时将同时搜索公开和社交圈照片两个领域，进而可同时返回搜索者的好友所分享的照片，以及评级为相关的所有公开照片。此时需要进行两个独立的请求，因为社交照片是高度个性化的，需要进行单独的检索和计分。为了保护照片隐私，我们会对搜索结果应用Facebook整个系统都在使用的隐私控制机制。下图演示了一个上端为“社交”，下端为“公开”的模块。
　　第一阶段评级
　　当索引服务器根据s-表达式获取到所需文档后，会交给经过机器学习训练的第一阶段评级器处理。随后分数最高，Top M文档会被发送至Rack aggregator层，借此对所获得的全部文档进行一定程度的合并，随后将Top N结果返回至顶级聚合器层。第一阶段评级的主要目的是确保返回至Rack aggregator的文档与查询依然保持一定的相关性。例如，在查询“狗”时，包含狗的照片无疑会比不包含狗的照片获得更高评级。为了能以毫秒级的速度提供相关照片，我们还对整个复杂的检索和评级阶段的延迟进行了优化。
　　第二阶段的二次评级
　　评级后的文档返回顶级聚合器后，会进行另一轮的信号计算、去重和评级。信号描述了整个结果分布情况的计算结果，借此可发现不符的结果。随后会使用图片指纹对视觉方面类似的文档进行去重。随后会通过深度神经网络进行计分和评级，借此生成最终的照片排序结果。评级之后的照片集（也叫做“模块”）会被发送到结果页面的UI中显示出来。
　　针对照片搜索优化相关性评级
　　对查询与照片，以及照片与查询之间的相关性进行评估，这是照片搜索团队所面临最核心的问题，并且已经远远超出了基于文本的查询重写和匹配技术范畴。为此我们需要进一步全面理解查询、照片作者、照片附带贴文，以及照片中的可视内容。先进的相关性模型通常需要包含顶尖的评级、自然语言处理，以及计算机视觉等技术，借此才能提供相关性更高的搜索结果，为我们塑造一种新颖的图片分类系统，在大规模范围内更快速提供相关性更高的搜索结果。

AARRR 海盗模型指标最佳实践

网站优化 • 优采云发表了文章 • 0 个评论 • 119 次浏览 • 2022-08-09 09:16 • 来自相关话题

　　AARRR 海盗模型指标最佳实践
　　阅读收获：
　　随着互联网渗透率增高，获客成本日益增高，流量红利不再已经成为共识，尽力提升留存降低流失才是当前运营工作的重中之重，AARRR 模型从获客、活跃、留存、推荐、付费等环节告诉我们如何建立运营方法论，在此我们通过最佳实践数据指标剖析模型，帮助我们实现产品业务增长。
　　00
　　概念
　　近年，用户增长是一个热门概念，与之相关的业务体系也水涨船高，这里就包含大家经常提到的 AARRR 模型，即海盗模型。
　　2007 年，500 Startups 风险投资基金的投资者 Dave McClure，提出了“Pirate Metrics”的概念，围绕这个理论提出 5 个维度的指标：获取、激活、留存、推荐和收入。
　　因为这 5 个指标的单词缩写为：AARRR，与海盗喊 “Aarrr!” 的缩写相似，这种方法也被称为“海盗度量”。
　　Dave McClure 的原始演示文稿“海盗启动指标：AARRR！！！”中的一张幻灯片_图片来源：
　　引用 Dave McClure 最初的演示文稿图，看上去是不是很乱，我们把重要的内容抽离出来，按照 5 个阶段排序，得到 AARRR 海盗图。看上去很像漏斗，因此，也有很多人把它叫做漏斗模型。
　　对于产品经理或产品运营，在实践用户增长过程中，我们需要计算每次操作动作的数据转化：从一个阶段到另一个阶段的用户数量、百分比，甚至是在单个环节里的行为数据。当一个用户，从点击推广广告后到达到产品，逐步进入产品漏斗并最终完成付费，这完全取决产品经理在每个阶段对产品逻辑设计。我们从用户增长的角度，对 AARRR 海盗指标进行分析。
　　01
　　获客
　　
　　获客阶段，目的是通过所用可最大的成本，最大能力获取新用户，通过吸引新用户到达产品。通常在该阶段，常用的方式是对新用户免费、免费使用、赠送新用户优惠券、赠送新手套餐等。获客策略实践如果有足够的时间和预算，可采用多种方法测试。可以在 Excel 中创建一个表格，并在其中放置有关每个活动的所有信息（活动名称、目标受众类型、从广告到网站的转换次数、转换量、每位客户的成本）。通过这种方式，以决策使用哪种获客方式效果最好。如果时间和预算有限，那么最好从最有可能成功的策略开始。在测试期结束时，可以通过衡量每位客户的成本来理解它（要衡量每位客户的成本，需要从某个渠道转换到网站的次数，然后将其除以花费的钱，即可获客成本值）。最佳指标1. СPC - 每次点击费用。2. CPL - 每个潜在客户的成本。3. СTR - 点击率。4. Leads - 潜在客户的数量。5. 跳出率 - 打开产品后立即离开的用户数。
　　02
　　活跃当用户达到后，通过引导他们完成注册，产品就具备了触达用户的方式（邮件、手机号、推送能力等），后续将用户变为活跃用户。
　　据有效数据表明，当新用户进入产品之后的次日活跃开始计算，有相当一部分新用户（80% 以上）都不会被再次激活。说白了就是第一环节所获取的用户，在日次只能产生 20% 的能量，剩余的全都浪费了。所以激活的目的就是为了提升能量，减少浪费。活跃策略实践个性化测试。在此基础上创建原型并对其进行测试。针对目标受众、使用不同设计的不同方法制作用户流程/注册表单的几种不同策略，关注客户的需求和问题。
　　进行 A/B 测试以找出哪种方式最适合所选策略。
　　收集激活用户群并分析他们的行为。注意他们与产品交互的方式。
　　同时，分析他们不使用应用程序的哪些功能。这些观察结果是需要改进和更改应用程序的关键。最佳指标1. CPA - 每次获取的成本：注册、订阅、从免费版本到付费版本的过渡。2. 参与 - 会话的持续时间和深度。3. 跳出率 - 跳出产品的百分比。
　　03
　　留存用户来得快、走得也快，如果用户在该阶段流失掉，那么前面的获客、活跃工作都会变成沉没成本。留存策略•电子邮件通讯（例如描述您如何改进客户已经使用的功能）；
　　•推送通知；
　　•每周摘要；
　　•用户等级（用户在产品内的价值回报）；
　　•改善用户体验。实践应该了解用户最喜欢哪些服务、哪些功能，以及为什么。将用户支持作为降低客户流失率的工作策略之一，倾听用户的意见并快速做出反馈。记住：不断改进最流行的功能，永远不要停止完善用户体验。最佳指标1. 会话持续时间 - 用户在一次访问期间与产品交互的时间。2. 客户退货率 - 在一定时期内有多少用户重复使用该产品。3. 客户流失 - 有多少用户在一段时间内（例如一个月）停止使用该产品。
　　04
　　推荐获得客户，然后他们激活并继续使用应用程序并且他们非常喜欢它，他们开始通过口耳相传或通过一些推荐系统或任何方式告诉其他人，他们邀请他们的朋友或团队成员使用产品，这是推荐指标阶段。这里的目标是鼓励用户推荐产品。尽一切努力使分享过程变得快速而轻松（降低推荐门槛）。推荐策略•发送有关您推荐计划的电子邮件提醒；
　　
　　•提供推荐奖励（现金返还、折扣等）；
　　•提供双向奖励（例如，如果有人使用共享链接注册，例如：Airbnb 会提供积分）。最佳指标•CSI - 客户满意度指数（通过测试衡量）。
　　05
　　付费付费，是评价是否成功完成上述所有阶段的指标。只有那些完全了解你的产品能给他们带来什么价值的用户才会进入收益阶段。此阶段的主要目标是从用户那里获得第一笔资金。付费策略•在开始免费试用之前为用户添加连接支付卡的步骤；
　　•配置推送通知，通知用户免费版本的限制并提供切换到付费版本；
　　•考虑向上销售和交叉销售。最佳指标1. ACV - 平均合约价值；2. LTV - 终身价值，在与用户合作的整个时间内从他们那里获利；3. 一定时期内的收益总额。
　　06
　　总结AARRR 指标仅是运营用户、经营用户的一种方法，可以帮助我们观察到用户的产品旅程，并检查用户在每个阶段使用产品时的问题而不断改进，我们除了要关注数据指标的表现，也需要认识到，要长期跟踪这些指标，才能更有效地衡量产品的表现。
　　附录：
　　搬运了知乎风狂大佬的 “PowerBI 可视化案例 - AARRR数据分析模型” 案例，通过各个阶段的数据分析更好的体会 AARRR 模型的指标。
　　参考资料：
　　AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 欢迎加入ThinkerD社群，超过400+热爱产品、热爱设计的小伙伴们，参与讨论互相学习一起进步。（公号内回复消息：【社群】）欢迎关注支持ThinkerD本公众帐号，点赞、转发、再看以帮助更多的朋友们。查看全部

　　获客阶段，目的是通过所用可最大的成本，最大能力获取新用户，通过吸引新用户到达产品。通常在该阶段，常用的方式是对新用户免费、免费使用、赠送新用户优惠券、赠送新手套餐等。获客策略实践如果有足够的时间和预算，可采用多种方法测试。可以在 Excel 中创建一个表格，并在其中放置有关每个活动的所有信息（活动名称、目标受众类型、从广告到网站的转换次数、转换量、每位客户的成本）。通过这种方式，以决策使用哪种获客方式效果最好。如果时间和预算有限，那么最好从最有可能成功的策略开始。在测试期结束时，可以通过衡量每位客户的成本来理解它（要衡量每位客户的成本，需要从某个渠道转换到网站的次数，然后将其除以花费的钱，即可获客成本值）。最佳指标1. СPC - 每次点击费用。2. CPL - 每个潜在客户的成本。3. СTR - 点击率。4. Leads - 潜在客户的数量。5. 跳出率 - 打开产品后立即离开的用户数。
　　02
　　活跃当用户达到后，通过引导他们完成注册，产品就具备了触达用户的方式（邮件、手机号、推送能力等），后续将用户变为活跃用户。
　　据有效数据表明，当新用户进入产品之后的次日活跃开始计算，有相当一部分新用户（80% 以上）都不会被再次激活。说白了就是第一环节所获取的用户，在日次只能产生 20% 的能量，剩余的全都浪费了。所以激活的目的就是为了提升能量，减少浪费。活跃策略实践个性化测试。在此基础上创建原型并对其进行测试。针对目标受众、使用不同设计的不同方法制作用户流程/注册表单的几种不同策略，关注客户的需求和问题。
　　进行 A/B 测试以找出哪种方式最适合所选策略。
　　收集激活用户群并分析他们的行为。注意他们与产品交互的方式。
　　同时，分析他们不使用应用程序的哪些功能。这些观察结果是需要改进和更改应用程序的关键。最佳指标1. CPA - 每次获取的成本：注册、订阅、从免费版本到付费版本的过渡。2. 参与 - 会话的持续时间和深度。3. 跳出率 - 跳出产品的百分比。
　　03
　　留存用户来得快、走得也快，如果用户在该阶段流失掉，那么前面的获客、活跃工作都会变成沉没成本。留存策略•电子邮件通讯（例如描述您如何改进客户已经使用的功能）；
　　•推送通知；
　　•每周摘要；
　　•用户等级（用户在产品内的价值回报）；
　　•改善用户体验。实践应该了解用户最喜欢哪些服务、哪些功能，以及为什么。将用户支持作为降低客户流失率的工作策略之一，倾听用户的意见并快速做出反馈。记住：不断改进最流行的功能，永远不要停止完善用户体验。最佳指标1. 会话持续时间 - 用户在一次访问期间与产品交互的时间。2. 客户退货率 - 在一定时期内有多少用户重复使用该产品。3. 客户流失 - 有多少用户在一段时间内（例如一个月）停止使用该产品。
　　04
　　推荐获得客户，然后他们激活并继续使用应用程序并且他们非常喜欢它，他们开始通过口耳相传或通过一些推荐系统或任何方式告诉其他人，他们邀请他们的朋友或团队成员使用产品，这是推荐指标阶段。这里的目标是鼓励用户推荐产品。尽一切努力使分享过程变得快速而轻松（降低推荐门槛）。推荐策略•发送有关您推荐计划的电子邮件提醒；
　　

　　•提供推荐奖励（现金返还、折扣等）；
　　•提供双向奖励（例如，如果有人使用共享链接注册，例如：Airbnb 会提供积分）。最佳指标•CSI - 客户满意度指数（通过测试衡量）。
　　05
　　付费付费，是评价是否成功完成上述所有阶段的指标。只有那些完全了解你的产品能给他们带来什么价值的用户才会进入收益阶段。此阶段的主要目标是从用户那里获得第一笔资金。付费策略•在开始免费试用之前为用户添加连接支付卡的步骤；
　　•配置推送通知，通知用户免费版本的限制并提供切换到付费版本；
　　•考虑向上销售和交叉销售。最佳指标1. ACV - 平均合约价值；2. LTV - 终身价值，在与用户合作的整个时间内从他们那里获利；3. 一定时期内的收益总额。
　　06
　　总结AARRR 指标仅是运营用户、经营用户的一种方法，可以帮助我们观察到用户的产品旅程，并检查用户在每个阶段使用产品时的问题而不断改进，我们除了要关注数据指标的表现，也需要认识到，要长期跟踪这些指标，才能更有效地衡量产品的表现。
　　附录：
　　搬运了知乎风狂大佬的 “PowerBI 可视化案例 - AARRR数据分析模型” 案例，通过各个阶段的数据分析更好的体会 AARRR 模型的指标。
　　参考资料：
　　AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 欢迎加入ThinkerD社群，超过400+热爱产品、热爱设计的小伙伴们，参与讨论互相学习一起进步。（公号内回复消息：【社群】）欢迎关注支持ThinkerD本公众帐号，点赞、转发、再看以帮助更多的朋友们。

【大咖分享】SEO站内优化八大要素

网站优化 • 优采云发表了文章 • 0 个评论 • 117 次浏览 • 2022-07-31 11:19 • 来自相关话题

　　【大咖分享】SEO站内优化八大要素
　　如果有人问你百度自然优化的精髓是什么?希望答案不再是“狂发外链”了。如今百度不再是5年前的百度，大量的算法更新对搜索引擎优化者的思维和手法有了更高的要求。然而百度更喜欢系统化用户体验偏向性的优化，站内优化部分也不仅仅是靠关键词和TITLE走天下的时代了。我总结了8个核心要素和思维走向，希望对SEO新手及要转变思维的SEO人有所帮助。
　　一，登陆页内容为解决问题而不只是描述问题
　　举个例子，有人搜“结婚穿什么衣服”时，最好的页面内容要有几个方面的引向：【20个让男宾客帅爆的婚礼搭配推荐】以及【精选搭配的购买信息】。因为这个搜索词背后的用户猜到他将要参加一场婚礼，所以终极要解决他的问题是哪里能买到衣服，而不是让他学习怎么搭配衣服。因此，优化这个关键词时，我们的内容应该要解决他的最终需求，这样的引流和转化的效果才会更好。
　　二，重要事情说三遍“加载速度、速度、速度”
　　信息碎片时代没人愿意给你机会去等待，所以网站打开加载速度比任何优化点更加重要。打开时间越短，用户满意度越高。对于搜索引擎是一样的道理。所以优化一上来先考虑提速有哪些点可以做，如CDN，无用代码移除，服务器宽带升级，缓存，页面瘦身，纯静态页面等优化动作。
　　三，为信赖感，参与感去提升UI，UX及品牌
　　
　　很多用户打开网站后会产生一个第一印象，好山寨，好土鳖，好不专业不是我们想要的结果。页面设计需要有UI & UX的投入以及品牌自有的口碑来背书，否则用户较难产生对网站的信赖感及参与度。最实际落地的做法就是参考行业里较好的站点进行模仿、购买付费版本的网站模板或让用户参与到每个设计环节里。
　　四，避免驱使用户离开页面的各类元素
　　很多一些弹窗、固定飘窗、广告位会让用户反感，从而放弃整个浏览进程。这是优化过程中要去避免和移除的部分，考虑更加原生的方式植入这些元素或是奖励用户完成进程。同时，在代码使用上避免蜘蛛被禁抓或是被难抓的可能性从而被搜索引擎降权。
　　五，关键词植入
　　常规的关键词植入(爆老师称其为填词)也要继续做，比如Title，H1，文章内关键词，外链锚文字，内链锚文字，图片ALT，URL，图片命名等。这个不做多赘述，大家都明白的。
　　六，主题模型的灌入
　　光有#5填词是不够的，因为那个太机械化会丧失文本用户体验。所以我们要做主题模型，比如关键词【婚礼服装搭配】我们可以扩展到燕尾服、结婚礼服、婚礼马甲、婚礼套装、婚博会等等一些相关词上。形成一个大主题，这样的页面内容会让关键词排名更全面而且对更多用户有帮助。同时，搜索引擎可以解读到你要推的主题内容是婚礼服装相关的内容。
　　
　　七，展现文字的深度优化
　　排名所展示出来的信息对点击率很重要，所以我们竟可能要去影响这些展示信息(主要是title，desc，url)。这些元素需要在内容上进行优化：title的创意、desc的飘红、url的规范、文章日期、使用结构数据、在线对话等。下面的效果如何?
　　八，独有价值内容的创造
　　说到底，营销是逃不出内容质量的。好内容包含：1)提供唯一性特别强的视觉体验，前端界面，适宜的字体与功能按钮 2)内容必须有用高价值，高可信度，很有趣，值得收藏的点在里面 3)与其他内容相比没有重复性，在深度上更加强劲 4)打开速度快(无广告)，并且可以在不同终端阅读 5)能产生情绪化的思绪如赞许，惊讶，快乐，思考等 6)可以达到一定的转发和传播力量 7)能用完整，准确独有的信息解决问题或是回答问题
　　点击进行领取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
　　SEO教程大放送+V:rdseo999，想学习SEO技术的同学不要错过！
　　赠送教程：1、百度算法篇：42节SEO快速快排教程一套！2、网站运营篇：32节教你运营好一个网站！3、SEO实战篇：9节百度SEO进阶教程！查看全部

　　很多用户打开网站后会产生一个第一印象，好山寨，好土鳖，好不专业不是我们想要的结果。页面设计需要有UI & UX的投入以及品牌自有的口碑来背书，否则用户较难产生对网站的信赖感及参与度。最实际落地的做法就是参考行业里较好的站点进行模仿、购买付费版本的网站模板或让用户参与到每个设计环节里。
　　四，避免驱使用户离开页面的各类元素
　　很多一些弹窗、固定飘窗、广告位会让用户反感，从而放弃整个浏览进程。这是优化过程中要去避免和移除的部分，考虑更加原生的方式植入这些元素或是奖励用户完成进程。同时，在代码使用上避免蜘蛛被禁抓或是被难抓的可能性从而被搜索引擎降权。
　　五，关键词植入
　　常规的关键词植入(爆老师称其为填词)也要继续做，比如Title，H1，文章内关键词，外链锚文字，内链锚文字，图片ALT，URL，图片命名等。这个不做多赘述，大家都明白的。
　　六，主题模型的灌入
　　光有#5填词是不够的，因为那个太机械化会丧失文本用户体验。所以我们要做主题模型，比如关键词【婚礼服装搭配】我们可以扩展到燕尾服、结婚礼服、婚礼马甲、婚礼套装、婚博会等等一些相关词上。形成一个大主题，这样的页面内容会让关键词排名更全面而且对更多用户有帮助。同时，搜索引擎可以解读到你要推的主题内容是婚礼服装相关的内容。
　　

　　七，展现文字的深度优化
　　排名所展示出来的信息对点击率很重要，所以我们竟可能要去影响这些展示信息(主要是title，desc，url)。这些元素需要在内容上进行优化：title的创意、desc的飘红、url的规范、文章日期、使用结构数据、在线对话等。下面的效果如何?
　　八，独有价值内容的创造
　　说到底，营销是逃不出内容质量的。好内容包含：1)提供唯一性特别强的视觉体验，前端界面，适宜的字体与功能按钮 2)内容必须有用高价值，高可信度，很有趣，值得收藏的点在里面 3)与其他内容相比没有重复性，在深度上更加强劲 4)打开速度快(无广告)，并且可以在不同终端阅读 5)能产生情绪化的思绪如赞许，惊讶，快乐，思考等 6)可以达到一定的转发和传播力量 7)能用完整，准确独有的信息解决问题或是回答问题
　　点击进行领取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
　　SEO教程大放送+V:rdseo999，想学习SEO技术的同学不要错过！
　　赠送教程：1、百度算法篇：42节SEO快速快排教程一套！2、网站运营篇：32节教你运营好一个网站！3、SEO实战篇：9节百度SEO进阶教程！

用好搜索，能帮你解决人生80%的问题

网站优化 • 优采云发表了文章 • 0 个评论 • 97 次浏览 • 2022-07-28 23:00 • 来自相关话题

　　用好搜索，能帮你解决人生80%的问题
　　「给你一把钥匙」编辑整理
　　我是莉莉盒，今天的分享，源自一位小伙伴某天在群里求助「搜索方法」，我想这方面，我有经验可以和你聊聊。
　　著名商业顾问刘润，他经常在朋友圈晒自己的读书感悟，有人就会问：润总，这本书在哪能买到呢？他说，当时的内心想法就是，你去当当网看看啊，这还需要问么。他当即就把这个朋友拉黑了。
　　他觉得，连这样的问题都不自己解决的人，不适合再做他的朋友。他说：“人生80%的问题，早就被人回答过，你只要搜索就好。剩下的20%，你才需要研究。”
　　去年，我听到这么一段话，来自李笑来的得到专栏，他说：学习能力分3个阶段：
　　会通过搜索解决问题，把自己的学习能力不断提升，就像是拿到了一个人生作弊器，可以突破自己的时间、地点局限，看到更大的世界。这是我之所以要和大家聊搜索的根本原因。
　　我眼里的搜索是什么？
　　在阅读训练营的第1天，我就确认了我的目标是转专业读博，之后按照李翔老师的指导路径，我先去搜索了what，也就是「转专业读博」意味着什么。
　　当我把这个想法和周边几个朋友聊起的时候，大家都觉得可以，但没办法给出建议，这让我感到无助。而当我把这个问题抛给youtube和google的时候，我找到了这个：74岁的最老博士，比导师大7岁，毕业论文初稿近40万字。
　　我还找到了这些，一个网友说：“这事儿稀奇么？我们公共管理学院满地都是这样的博士。”还获得了一些非常重要的洞见，搜索得到的这些素材，帮助我：获得了转专业的感性认识、建立了自信心、了解了准备的重点。
　　在我看来，「搜索」是为实现目标，寻找有用线索的过程。通过搜索，我对「转专业读博」这件事情的认知逐渐清晰。
　　它是一种破案式的思维方式，遇到问题不能像学生时代考试一样，坐着硬憋；周边朋友很多时候也有局限性，无法打开你的思路；你更不能怕麻烦，需要一点点像破案一样，找到心中的答案。掌握了这个工具，你就可以从社群里的「伸手党」，变成「自己来」。
　　通过搜索解决问题的整个过程，我画了一个小模型，从发问到获得答案，主要有这么几个步骤：
　　选择搜索引擎→提取搜索词→构造表达式→进行搜索→筛选检索结果→调整搜索策略→反思总结。
　　怎样才能找到你要的答案？
　　每次开始搜索，都要想一遍我搜这个的目标是什么。
　　方法其实很简单，就是：关键词搜索法。
　　不要把自己的口语整一大段放进搜索框里，你需要尽量的提取出关键词来。当然，有时候问题不长的话，整句话放进去也是可以的。这就是第一步「模糊搜索」。
　　然后在搜索结果里进行筛选比对，找到关键的搜索词并搜索这些词。
　　如果范围还是很大，无法获得精确的答案，那就需要第三步，用符号构造搜索表达式，进行精准搜索。
　　下面用案例来说明一下这个极简的流程：
　　假如，你想知道：我快要和社会脱节了，要怎么办？
　　这是一个很宏观的问题，如果你可以回忆哪件事让你产生这个看法，就可以从事件和感受中，分析这个问题，提取关键词。
　　如果你不愿意想那么多，分析那么多，也可以直接把这句话抛给搜索引擎。打开百度，把「我快要和社会脱节了，要怎么办？」输入搜索框。
　　这个时候，你先不用挨个打开具体的网页，而是大体上浏览一下前2-3页，从网页的题目和摘要中，你就可以把这个宏大的问题，提取出不同的几个词汇，根据自己的需要把搜索范围缩小。
　　如果你会使用Google，那搜索引擎的选择，第一位一定是选择谷歌。
　　你注意到没，刚才在细化的过程中使用了一个搜索语法，就是“site：”，这个可以把搜索局限在某个特定的网站内，会更加精准。
　　
　　还有其他几个常用的搜索语法，比如“加号”、“减号”、“引号”，如果你搜索的是文档，还可以增加文档的后缀名进行搜索。我经常加PDF进行搜索，这一搜来的结果相对质量会高一些，因为任何话题能讲成一篇大文章就比零碎的点来的系统。
　　下面是几个使用搜索语法的示意图。
　　为了准备今天的分享，我特意咨询了一个做SEO的朋友，就是给网站内容做搜索词优化，换句话说告诉生产内容的网站，怎么样更容易被搜索引擎收录。他从另外一个视角告诉我，用户在搜索引擎的搜索意图主要被分为三种，导航类、信息类和资源类。导航类就是要找到某个网站的网址，你直接输入搜索框就可以了，相对比较简单。咱们今天说的解决问题，还主要是信息和资源。你想通过搜索，找到自己要的信息和资源。
　　用阅读训练营的一个例子：
　　你听到某本书，讲述如何帮孩子订正作业、提高分数。但你已经不记得具体名字。
　　这时，你就可以把自己记得的关键词输入，从结果页面中找到《翻转课堂的可汗学院》，不需要垫入具体页面。这时，你想看看这本书的书评，大体了解一下说的是什么。
　　你可以直接进入豆瓣，也可以在搜索引擎，用site语法搜索豆瓣，就可以看到其他人的评分和书评。
　　然后你可以进入亚马逊，购买电子版。
　　如果没有kindle软件的话，同时下载一个免费的软件。
　　这样，你就可以阅读了。
　　上面的一部分内容，我都没有涉及一个选择，就是搜索引擎。
　　你一般在哪搜索呢？
　　和大家分享一下，除了百度、谷歌，读书和写作过程中，我经常用的几个搜索渠道。
　　比如：北宸老师发了一个王东岳老师的文章，感觉很好，你还想了解更多王东岳老师的思想，你可以通过「搜一搜」，用手机很快的看到他的一系列文章以及视频，迅速对他这个人产生一些感性的认识。这对你是否会继续深入的了解他的思想，可以起到快速的判断作用。
　　比如：你写一篇搜索的文章，或者之前我写过一篇「反馈」的文章：（点击蓝字，可以阅读），我都是在得到app里，先搜一下得到的老师们，关于这个话题都阐述过哪些角度，是否有重要的洞见，可以借鉴。今天「搜索即认知」就是从这里获得的灵感。帮你找到观点，甚至于案例方向，都很有帮助。你也可以从这里，找到一些相关的书籍。
　　我已经在印象笔记收集上千条笔记，有些话题，在印象笔记里一搜，可以看到过去对这个话题积攒的东西。这个堪比是个人百度。
　　我在搜索中走过的坑
　　第一个坑，网络信息浩瀚无垠，搜索一个话题，又看到另外一个有趣的信息。就会一级一级点击下去。本来要给文章找素材，结果看到有趣的课程宣传文案，看到被安利的一次旅行，就跑去买买买了。被信息带跑这种事，你出现过么？
　　第二个坑，从不搜索变成搜索，从只看一页搜索结果，变成看10，甚至几十页，都觉得是不是还有哪些材料和角度没收集到，恨不得把全网扒到底，而成为无限制收集狂。这时候，你需要回归搜索目标，注意节制。
　　第三个坑，一说到搜索，就会想到一堆搜索技巧和特殊的网站资源，总觉得高效搜索就是掌握了这些独门资源。其实，除了技巧和资源，更多的是一种思维方式的养成。
　　再次回到阅读训练营这几天翔哥一再和我们强调的GROW模型，问问自己我的搜索目标是什么，让每一次搜索尽量在一定时间内完成预期的结果。
　　
　　来个小结
　　一种思维方式。搜索就像是破案，需要你根据自己模模糊糊的关键词，逐渐清晰，获得自己的答案。不要怕麻烦。
　　两种搜索技巧。site命令和加文档后缀，比如PDF，可以帮助我们让搜索更加精准。
　　三个搜索渠道。根据不同的搜索目的，除了百度和googol这种通用型搜索，我还常用微信、得到和印象笔记。
　　三个大坑：
　　这几个地方帮你找到想要的书
　　对于爱看书的你，这几个地方可以帮助你找到自己想要的书。
　　这几个地方，搜索最好是亚马逊。
　　你可以把自己希望了解的领域输进去，找到相应的书单。也可以根据前期阅读，筛选出自己喜欢的作者，把他的书都拿来看。
　　下面这个网站，可以帮助你找到想要的电子书。我自己常用的是第5和第6.
　　有时候，google 可以解决一切。
　　上面所有的分享，都是搜索的初阶，你如果想要获得更好的信息来源。
　　第一步，请把你的问题转为英语，输入谷歌。
　　第二步，积攒自己关注主题的关键词，多数就是术语表，找到行业里的意见领袖，关注他们关注的资源。
　　第三步，进行大量的主题阅读，积攒自己对于关注领域系统性的知识。让搜索做你的辅助，而不是信息的所有来源。
　　曾经在一次群聊的时候，提到对学习某些东西会有抵触心理时，李翔老师说，那你要问问自己“你在逃避什么？你在拒绝什么？”
　　这句话，也送给你。
　　▍今日互动
　　#一转眼又到周五了，这个周末你打算怎么过？#
　　老编辑先来：
　　周末我只做一件事：将一把钥匙·李翔21天月阅读训练营的作业补完
　　。
　　（一把钥匙·李翔21天阅读训练营开启3人拼团模式，团购成功立减100元，1月19日24点截止~一般人我不告诉他，点击文末阅读原文即刻开始拼团。）
　　成长干货推荐
　　▼点击图片即可阅读查看全部

　　还有其他几个常用的搜索语法，比如“加号”、“减号”、“引号”，如果你搜索的是文档，还可以增加文档的后缀名进行搜索。我经常加PDF进行搜索，这一搜来的结果相对质量会高一些，因为任何话题能讲成一篇大文章就比零碎的点来的系统。
　　下面是几个使用搜索语法的示意图。
　　为了准备今天的分享，我特意咨询了一个做SEO的朋友，就是给网站内容做搜索词优化，换句话说告诉生产内容的网站，怎么样更容易被搜索引擎收录。他从另外一个视角告诉我，用户在搜索引擎的搜索意图主要被分为三种，导航类、信息类和资源类。导航类就是要找到某个网站的网址，你直接输入搜索框就可以了，相对比较简单。咱们今天说的解决问题，还主要是信息和资源。你想通过搜索，找到自己要的信息和资源。
　　用阅读训练营的一个例子：
　　你听到某本书，讲述如何帮孩子订正作业、提高分数。但你已经不记得具体名字。
　　这时，你就可以把自己记得的关键词输入，从结果页面中找到《翻转课堂的可汗学院》，不需要垫入具体页面。这时，你想看看这本书的书评，大体了解一下说的是什么。
　　你可以直接进入豆瓣，也可以在搜索引擎，用site语法搜索豆瓣，就可以看到其他人的评分和书评。
　　然后你可以进入亚马逊，购买电子版。
　　如果没有kindle软件的话，同时下载一个免费的软件。
　　这样，你就可以阅读了。
　　上面的一部分内容，我都没有涉及一个选择，就是搜索引擎。
　　你一般在哪搜索呢？
　　和大家分享一下，除了百度、谷歌，读书和写作过程中，我经常用的几个搜索渠道。
　　比如：北宸老师发了一个王东岳老师的文章，感觉很好，你还想了解更多王东岳老师的思想，你可以通过「搜一搜」，用手机很快的看到他的一系列文章以及视频，迅速对他这个人产生一些感性的认识。这对你是否会继续深入的了解他的思想，可以起到快速的判断作用。
　　比如：你写一篇搜索的文章，或者之前我写过一篇「反馈」的文章：（点击蓝字，可以阅读），我都是在得到app里，先搜一下得到的老师们，关于这个话题都阐述过哪些角度，是否有重要的洞见，可以借鉴。今天「搜索即认知」就是从这里获得的灵感。帮你找到观点，甚至于案例方向，都很有帮助。你也可以从这里，找到一些相关的书籍。
　　我已经在印象笔记收集上千条笔记，有些话题，在印象笔记里一搜，可以看到过去对这个话题积攒的东西。这个堪比是个人百度。
　　我在搜索中走过的坑
　　第一个坑，网络信息浩瀚无垠，搜索一个话题，又看到另外一个有趣的信息。就会一级一级点击下去。本来要给文章找素材，结果看到有趣的课程宣传文案，看到被安利的一次旅行，就跑去买买买了。被信息带跑这种事，你出现过么？
　　第二个坑，从不搜索变成搜索，从只看一页搜索结果，变成看10，甚至几十页，都觉得是不是还有哪些材料和角度没收集到，恨不得把全网扒到底，而成为无限制收集狂。这时候，你需要回归搜索目标，注意节制。
　　第三个坑，一说到搜索，就会想到一堆搜索技巧和特殊的网站资源，总觉得高效搜索就是掌握了这些独门资源。其实，除了技巧和资源，更多的是一种思维方式的养成。
　　再次回到阅读训练营这几天翔哥一再和我们强调的GROW模型，问问自己我的搜索目标是什么，让每一次搜索尽量在一定时间内完成预期的结果。
　　

　　来个小结
　　一种思维方式。搜索就像是破案，需要你根据自己模模糊糊的关键词，逐渐清晰，获得自己的答案。不要怕麻烦。
　　两种搜索技巧。site命令和加文档后缀，比如PDF，可以帮助我们让搜索更加精准。
　　三个搜索渠道。根据不同的搜索目的，除了百度和googol这种通用型搜索，我还常用微信、得到和印象笔记。
　　三个大坑：
　　这几个地方帮你找到想要的书
　　对于爱看书的你，这几个地方可以帮助你找到自己想要的书。
　　这几个地方，搜索最好是亚马逊。
　　你可以把自己希望了解的领域输进去，找到相应的书单。也可以根据前期阅读，筛选出自己喜欢的作者，把他的书都拿来看。
　　下面这个网站，可以帮助你找到想要的电子书。我自己常用的是第5和第6.
　　有时候，google 可以解决一切。
　　上面所有的分享，都是搜索的初阶，你如果想要获得更好的信息来源。
　　第一步，请把你的问题转为英语，输入谷歌。
　　第二步，积攒自己关注主题的关键词，多数就是术语表，找到行业里的意见领袖，关注他们关注的资源。
　　第三步，进行大量的主题阅读，积攒自己对于关注领域系统性的知识。让搜索做你的辅助，而不是信息的所有来源。
　　曾经在一次群聊的时候，提到对学习某些东西会有抵触心理时，李翔老师说，那你要问问自己“你在逃避什么？你在拒绝什么？”
　　这句话，也送给你。
　　▍今日互动
　　#一转眼又到周五了，这个周末你打算怎么过？#
　　老编辑先来：
　　周末我只做一件事：将一把钥匙·李翔21天月阅读训练营的作业补完
　　。
　　（一把钥匙·李翔21天阅读训练营开启3人拼团模式，团购成功立减100元，1月19日24点截止~一般人我不告诉他，点击文末阅读原文即刻开始拼团。）
　　成长干货推荐
　　▼点击图片即可阅读

关于短期恶性竞争更新搜索引擎主题模型优化的通知(图)

网站优化 • 优采云发表了文章 • 0 个评论 • 104 次浏览 • 2022-07-26 20:08 • 来自相关话题

　　关于短期恶性竞争更新搜索引擎主题模型优化的通知(图)
　　
　　搜索引擎主题模型优化；实践操作优化；数据分析优化（这两个部分学习周期长，需要反复输入搜索结果，去优化）；新闻采集优化（去除新闻联播中的各种水分以及每天的热点舆论）；垂直媒体发布模型优化；网站的自身安全性优化（操作十分多，体现性价比，要承受高成本）；事件的发掘优化（即使是事件也要需要不断的学习和总结）；搜索引擎短期恶性竞争更新；搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。
　　查看全部

　　关于短期恶性竞争更新搜索引擎主题模型优化的通知(图)
　　

　　搜索引擎主题模型优化；实践操作优化；数据分析优化（这两个部分学习周期长，需要反复输入搜索结果，去优化）；新闻采集优化（去除新闻联播中的各种水分以及每天的热点舆论）；垂直媒体发布模型优化；网站的自身安全性优化（操作十分多，体现性价比，要承受高成本）；事件的发掘优化（即使是事件也要需要不断的学习和总结）；搜索引擎短期恶性竞争更新；搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期恶性竞争更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。
　　

提高搜索引擎主题模型优化技术的技巧和注意事项！

网站优化 • 优采云发表了文章 • 0 个评论 • 100 次浏览 • 2022-07-25 18:08 • 来自相关话题

　　提高搜索引擎主题模型优化技术的技巧和注意事项！
　　搜索引擎主题模型优化技术请参考：：搜索引擎主题模型优化-从优化搜索结果页面到优化搜索引擎权重，
　　seo换的是域名，
　　个人觉得抓住一个核心词去优化，不要在乎热度和竞争，会更有效果。
　　
　　回归网站本质定位核心关键词即可
　　如果是做seo，
　　我更关心关键词
　　那就是快照，刚注册的时候先看看自己的公司或者产品所对应的关键词快照有没有，然后改，
　　
　　用心做，不要随波逐流就好了。你用心了，慢慢关键词的权重自然就会上去了。记住，本质是流量，最后还是流量。
　　301去百度收录
　　我做网站seo做了挺久的，虽然也不算很全面，但是我觉得通过seo方法想要提高网站搜索排名有以下几点技巧:1.seo技术是一定要掌握的，先不谈seo技术好坏，至少了解一些seo技术也算是个入门吧，关键词分析啊、网站结构呀、网站代码呀什么的，都要看看。2.多在网站中加些能提高你网站的搜索引擎收录量的元素，这点很重要，因为在搜索引擎页面有人访问的时候，这些元素都是会被收录的，像我们做的百科网站，然后都加上“seo中心网”之类的元素，这些都是关键词提供，也会提高网站搜索量。
　　3.不要一味的追求网站排名，很多时候网站排名高低并不代表真正的访问量，排名好点的都是搜索人气高的，访问量少的也不见得就不好，现在很多网站都是在我上面说的访问量和收录量都很少的网站，这个时候一定要看看每天自己网站在百度收录的比例，不能掉了。4.一定要有自己的网站，再大的网站用一些垃圾链接都是没有用的，不管这个网站权重多高，作为企业自己要了解自己的网站对自己做seo贡献多大，说到底，做网站最主要还是为了能赚钱，能靠这网站赚钱才是王道。
　　5.在做好自己网站的情况下，每天坚持发布一些友情链接，很多公司和自己的网站做友情链接，再通过友情链接提高网站排名，想想看你收到的询盘和收益都是你在做网站来的呀，这点钱哪里是一点网站就能赚回来的呢。查看全部

　　提高搜索引擎主题模型优化技术的技巧和注意事项！
　　搜索引擎主题模型优化技术请参考：：搜索引擎主题模型优化-从优化搜索结果页面到优化搜索引擎权重，
　　seo换的是域名，
　　个人觉得抓住一个核心词去优化，不要在乎热度和竞争，会更有效果。
　　

　　回归网站本质定位核心关键词即可
　　如果是做seo，
　　我更关心关键词
　　那就是快照，刚注册的时候先看看自己的公司或者产品所对应的关键词快照有没有，然后改，
　　

　　用心做，不要随波逐流就好了。你用心了，慢慢关键词的权重自然就会上去了。记住，本质是流量，最后还是流量。
　　301去百度收录
　　我做网站seo做了挺久的，虽然也不算很全面，但是我觉得通过seo方法想要提高网站搜索排名有以下几点技巧:1.seo技术是一定要掌握的，先不谈seo技术好坏，至少了解一些seo技术也算是个入门吧，关键词分析啊、网站结构呀、网站代码呀什么的，都要看看。2.多在网站中加些能提高你网站的搜索引擎收录量的元素，这点很重要，因为在搜索引擎页面有人访问的时候，这些元素都是会被收录的，像我们做的百科网站，然后都加上“seo中心网”之类的元素，这些都是关键词提供，也会提高网站搜索量。
　　3.不要一味的追求网站排名，很多时候网站排名高低并不代表真正的访问量，排名好点的都是搜索人气高的，访问量少的也不见得就不好，现在很多网站都是在我上面说的访问量和收录量都很少的网站，这个时候一定要看看每天自己网站在百度收录的比例，不能掉了。4.一定要有自己的网站，再大的网站用一些垃圾链接都是没有用的，不管这个网站权重多高，作为企业自己要了解自己的网站对自己做seo贡献多大，说到底，做网站最主要还是为了能赚钱，能靠这网站赚钱才是王道。
　　5.在做好自己网站的情况下，每天坚持发布一些友情链接，很多公司和自己的网站做友情链接，再通过友情链接提高网站排名，想想看你收到的询盘和收益都是你在做网站来的呀，这点钱哪里是一点网站就能赚回来的呢。

伦敦大学学院计算机系教授汪军：决策大模型

网站优化 • 优采云发表了文章 • 0 个评论 • 118 次浏览 • 2022-07-11 14:58 • 来自相关话题

　　伦敦大学学院计算机系教授汪军：决策大模型
　　机器之心发布
　　机器之心编辑部
　　不久之前，在机器之心举办的「决策智能产业应用」在线圆桌论坛上，伦敦大学学院计算机系教授汪军发表了主题演讲《决策大模型》。
　　机器之心对汪军教授的演讲内容进行了不改变原意的整理。感兴趣的小伙伴可以点击阅读原文查看回顾视频。
　　谢谢机器之心的邀请，我今天分享的题目是《决策大模型》。首先我将要介绍我们在决策智能领域做的一些研究，同时我认为大模型很重要，它代表了其在现在技术上的一个思路，不管从技术突破层面，还是实际应用层面，大模型可能给大家带来不一样的东西，同时大模型也有不足之处，学术界、工业界也在不断地推进大模型发展，所以这是一个不断发展的研究领域，最后我会点题大模型。
　　决策智能和预测智能是有差别的。需要强调的是在人工智能应用领域，一开始我们是在做感知智能、预测智能，这相当于在数据里面找规律，有了规律以后，我们希望能够反馈到数据来改变数据，甚至能够优化决策，对数据产生改变，然后形成闭环。
　　我目前在上海筹备一个名为「数字大脑研究院」的机构，这是一家以科技创新与资本联动方式加速科技成果快速商业化的新型科研机构，已经研发出全球第一个多智能体决策大模型。其目的也是想把决策智能应用，进行更清楚地梳理，特别是用大模型大数据来解决决策智能问题，驱动各产业全面智能化升级。
　　今天我讲的内容主要分成几个部分。
　　首先我会介绍决策在数学上是怎么表达的，以及为何如此重要。
　　第二部分我会介绍决策智能最重要、最关键的问题：安全性和鲁棒性问题。决策智能可应用于互联网，比如搜索推荐广告，这些对安全要求其实并不高，其本质就是推荐内容，推荐错了也不会造成大的财产损失，只要平均能提高百分之几的点击率就可以了。所以在互联网上的这些搜索广告推荐，很容易就会用到决策的一些方法。但是我们将决策智能用到工业互联网，或是其他地方，情况可能就不一样了，我们必须有一个从理论上、实际上都要保证它是安全、鲁棒的。因此我会介绍一下这方面的思路是什么、研究方法，以及可能的实现方法，此外我还会介绍各个技术点。
　　第三部分我会介绍因果分析。
　　第四部分我会介绍贝叶斯优化，贝叶斯优化数据样本效率特别高，使得我们在小数据的情况下也可以做决策。
　　最后我会介绍大模型，我们为什么要做决策的大模型？我们应该怎么做？潜在的影响是什么？
　　决策
　　首先是决策，历史上笛卡尔在 17 世纪作为哲学家和数学家，就开始思考人是怎样做决策的。当然那时的科学还是比较落后的，给出的解释是比较机械的。大家都知道所谓的二元论观点，即在大脑里面，二元论观点认为有一个特定的器官：松果体。心灵和肉体之间有一个交互的地方，这个地方就是在大脑的松果体里。心灵是没法解释的，但是心灵可以控制人体行为动作，通过心灵的引导人类能够进行一些日常决策、行动等。以上是对人的决策解释。
　　其实再往前、往大的地方考虑的话，有一个思路可以去解释人、生命，即熵增熵减。整个宇宙是一个熵增的过程，即从有序变无须的状态。假设某个封闭的空间被抽成了真空，在一边划一个裂缝，将气体放进去，慢慢扩散到整个空间，这种气体的扩散就是从有序变成无序的状态。生命体则相反，吸收能量，是从无序走向有序的状态；于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律，即使生活环境在变，人内环境的很多东西是不会变的，比如说身体的体温，身体体液的成分等。所以作为一个生命体，无论外界的情况如何变化，其内部总是希望保持一个恒定的状态。
　　人类开发了人工智能以及各种技术，必然是帮助我们解决不变性的，或者说是解决熵减。所以按照这个思路进行思考，就会比较容易理解一个生命体如何去做决策，或者说生命体做决策原理是什么。我们用一个最简化的数学模型来描述这个过程。
　　如下图，比如说整个世界假设它是不可知的，我们可以用一个隐变量 s* 来描述这个世界（或者说代表世界运行的规律或真理）。然后作为个体，比如生命体或是细胞，存在于这个世界当中，受这个世界运行影响。这个生命体不知道 S * 但会观察这个外部世界，假设这个观察量是 o （因为 s * 是不可观察的，但是 o 是 s * 生成的，可以推理出 s*）。透过 o，生命体对 s * 有了理解，但生命体不是 100% 完全可以推理出自然界隐藏的规律。比如说重力，牛顿根据苹果落地这样一个事实，他观察到了这种现象 o，对真实世界产生一定认知和理解，这个认知和理解就是 s。但是 s 和 s * 可能不一样，也可能一样，因为其代表了个体对外界的理解。当个体理解以后，个体就会采取行动（下图的 u）改变世界，比如说人，人可以改变世界，细胞可以释放某些东西，与病毒做斗争，所有这些都是个体对外界的影响。在外界影响的情况下，改变自然界，自然界然后又会出现新的状态规律，个体在根据观察做出理解和改变，依次反复。
　　所以对于感知智能来说，感知是从观察到发现规律 o -> s；决策智能，就是从规律再返回事件 s -> u，来改变数据环境。
　　感知是主观的，它是个体的感知，每个人可能不一样，难以用语言来描述，但可以通过其他方式来描述。人与人之间会产生共鸣，这是为什么？因为你的感知和另外一个人的感知，对于观察到的同一个东西或者观察到的同一现象可能不一样，但是会产生共鸣。所以当你看到这些绘画的时候，就会和这些绘画的作者产生共鸣。所以这就是感知方面的一个规律，这个也就是艺术存在的本源。
　　决策是如何进行的？效用理论（Utility theory）。John Von Neuman 是一位非常著名的数学家，同时也是计算机学科的奠基人，他同时也创立了 Games Theory。在经典的《Games Theory》里，他讲到了 Utility theory，提供了一套数学工具来告诉大家怎样去做决策。其数学表达可以认为是优化某一个特定的函数，选择能够最大化函数的值。
　　如果一个智能体是理性的话，那么怎样做决策呢？我们还是用上面的这个例子来讲，假设人或者机器都可以，他们存在于一个世界中，我从外界观察到一个信号 o，那么我要选择的最优决策是什么 u？贝叶斯决策理论就是说，当我观察 o 的时候，其实对 s 到底长什么样已经有了一定的估计，比如说一个分布和描述。通过观察 o 之后的后验知识，那么我对自然界的一些规律和法则有了一定的了解。这个了解反映在它的分布和后验概率上 p(s|o)。也就是说，我对它的了解有一定的不确定性。
　　
　　再来看所谓的奖励函数。如果自然界长成这个样子 s，我采取了行动 u，那么我的获利应该是多少，我们用 R(s,u) 这个函数来描述？只要你可以定义这个获利，就可以最大化平均的获利值。我选择自己的决策，最大化预期利益或者说平均利益。贝叶斯决策理论可以告诉你，这个就是最优的决策。刚才其他演讲者讲到强化学习和优化，无外乎就是上述公式，优化一个特定的（奖励）函数。我选择的这个决策变量使得这个函数值是最大化的。
　　另外一个更基础的问题来了，什么是智能呢？其实，智能可以用函数来解决。我使得自己的长期收益是最好的，比如说经典的巴普洛夫条件反射，为什么狗可以跟它的铃声和食物产生联系呢？为什么一听到铃声就会产生唾液呢？这是因为它学习到了你经常一敲铃便会给它食物，这样狗当然就迅速行动了。
　　从长期角度来讲，对狗这个生命体来说，它优化了自己「迅速跑到这边获取食物」。狗的行为最优的的表现是它可以适应环境获取食物，从长时间来达到它的受益。
　　但实际上，我们说做（机器）决策智能的时候，包括将来讲的应用如互联网广告，已经广泛地应用到了。我之前做联合创始人的公司就是专门做强化学习用于互联网广告。除了强化学习，决策智能有其他的表现形式或数学表达，能够解决不一样的东西。
　　刚才有演讲者讲到了运筹优化的内容。运筹优化本质是个优化问题，就是我给定一个目标函数 f（x），它可以是知道的，也可以是不知道的。在不知道的情况下，我们叫它黑盒优化；在知道的情况下，我们叫它白盒优化。然后，我的目的是要找到决策 x，我选择自己的决策并最大化函数 f。这个函数可以是刚才说到的 utility 奖励函数，也可以是其他各种各样的函数。那么如果从这个角度来讲的话，它就有很广泛的用途。
　　比如其他演讲者所讲的电厂和 EDA 优化的问题。生物化学上，我们甚至可以用它来寻找抗体，就是用机器学习或黑盒优化的方法，帮助找到更合适的抗体。还有演讲者提到的 AutoML，它们本质上也是黑盒优化问题。
　　黑盒优化里面比较好的方法就是贝叶斯优化，比如我们做优化时允许去试错。我们找一些 x「喂」到 f 里面，然后去测试（给出 f 的值）。如果说我们的任务是找抗体的话，则允许做一些黑盒实验，看看化学反应如何。然后我们再去建一个对 f 了解的模型，叫做代理模型（surrogate model）。接着再创建一个采集函数 (acquisition function)，告诉我们下一个实验应该怎么做 (下一个测试的输入值 x 应该是什么)，然后无限循环往复，直到实现最优。
　　贝叶斯优化好处是什么？它从理论上保证能够找到全局最优。同时它也能减少做实验的次数，所以贝叶斯优化可以帮助我们在数据稀疏的情况下，去优化决策。
　　大约一年前，我带着华为团队一起做了一个贝叶斯优化算法，获得 NeurIPS 黑盒优化冠军，名字为河伯，该系统已经开源，被研究者广泛使用，该研究应用领域包括在 Auto ML、蛋白质设计、 MindSpore 超参数优化、机器学习系统里的 rate 超参数优化，此外还包括各种各样的实际场景应用。接下来我会介绍几个例子，我认为这是比强化学习更容易落地、更接地气的方法，因为这种方法对数据要求不高。
　　以上是我介绍的决策智能一些重点内容。那么决策智能难点在哪？刚才有演讲者讲了安全的知识，安全在决策智能中非常重要，我会稍微介绍一下最近的一些算法，然后我再讲一些因果分析的内容（对决策的可解释性提供了理论基础）。
　　大约十多年前，我刚去 UCL 的时候，对互联网搜索的问题很感兴趣。其中很关心搜索引擎的不确定性问题，比如用户使用百度搜索 iPhone 4 代，能搜索出结果。但是当用户搜索了一个困难的主题关键字，可能没有一个跟用户的需求相关的，那么用户就会不在用这个搜索引擎，改用其他的搜索方法。所以搜索引擎需要有个有效的方法避免以上问题出现。
　　我们该如何看待这个问题？其实就是最大化用户满意度。我们在 2009 年做过一套理论，参考了投资的一些原则，就是不要把所有的钱都投到同一个地方。为什么这样做？因为股票价值有高有低，之间此起彼伏，你需要多样化投资组合。同样的道理，你在做搜索推荐或者互联网广告时，不要把你认为用户相关的都展示出来，万一判断有错怎么办，所以你要多样化你的文件列表。当时在学术圈，大家都已经开始做多元化排序了，但其实没有给出一套理论，我们给出了一套理论，该理论告诉搜索引擎在什么时候多样化，多样化多少的的。SIGIR 对这个工作非常认可，去年授予了 test of time honorable mention: 十年、甚至十几年之后再去看这篇文章，还是非常有影响力的。我本身对这个工作还是非常自豪的。
　　安全和鲁棒
　　在工业互联网时代，需要做更加精细的决策，安全与风险是其中重要的部分。我之前带领了华为诺亚实验室伦敦团队，在 2022 年发表在机器学习会议 ICML 上的一篇文章（SAUTE RL）。几乎肯定（或以概率为一）的满足安全约束对于在现实应用中部署强化学习 (RL) 至关重要。例如，飞机着陆和起飞在理想情况下应该以概率 1 发生。我们团队通过引入安全增强的马尔可夫决策过程（MDP）来解决这个问题，其中通过将安全约束增强到状态空间并重塑目标来消除安全约束。团队证明了 “炒” （Saute）过的马科夫决策过程（ MDP）满足贝尔曼（Bellman）方程，并更接近于解决几乎肯定满足约束的安全强化学习。团队认为 Saute MDP 采用了一个不同角度对待安全决策问题。例如，新提出的方法具有即插即用的特性，即任何 RL 算法都可以 “炒”。此外，状态增强允许跨安全约束的策略泛化。最终表明，当约束满足非常重要时，Saute RL 算法可以超越其最先进的算法。在下图所示的实验中，可以 Saute RL 算法在一些极端的测试下，安全性仍然是绿色的，图中虚线表示 100% 安全。Saute RL 算法在一些安全性要求较高的场景广泛应用，比如电力、自动驾驶等。
　　这是我们做的一个实验，可以看到在一些 setting 极端策略下，我们的方法保证 100% 安全。不管从实验上、还是理论上我们都可以 100% 得到安全保障。如果用这些方法，我们在一些严格的安全性场景里，比如电力、自动驾驶等，我们就可以广泛地使用这些强化学习和优化决策的方法了。
　　另外一个更难的问题是如何保证模型训练安全。我们将类似的方法运用到训练中。训练过程中加入一个安全状态，它会记录历史上的操作是否安全，在学习的过程中可以根据安全状态选择安全的路径。
　　因果分析
　　下面介绍因果分析，刚才有人讲到数字孪生，这其中涉及模型和数据的关系。所谓数字孪生，本质就是对真实世界建模，如果仅凭自己想象建模，那结果和真是世界差别很大。同样的道理，假如你有数据，但数据不代表真实情况，数据在采样的情况下就存在偏差，用存在偏差的数据建立模型，显然不能真实地反映情况，导致模型和数据之间有差别。如果你用这些数据建立数字孪生去仿真、去学习，显然不准确。所以数字孪生的核心问题就是建立必须要让它与环境一致、与数据一致。举例来说，在推荐系统里面，我们可以去做推荐的仿真，可以去仿真数据，但是要强调的是仿真必须跟真实情况保持一致。
　　我认为 Judea Pearl 因果分析的研究很有意义，给我们提供了很好的理论基础。他提出的结构化的因果模型（structure causal model）对因果关系提供了一个系统的描述。从我个人理解来讲，如果将其与图模型或者主流的统计方法相比的话，主要区别在于增加了外生变量，这些外生变量对系统会造成改变。我们必须有一套理论去理解它，而不是假设它不存在，假如这些外生变量不存在，你就没有规则去完全消除这些偏差（ bias）的问题。只有对这些外生变量建模，模型才会有效。Judea Pearl 的一个思路很有意思，就是系统的介绍了干预和想象的操作。比如 A 和 B 经常在一起，当有 A 的时候，预测 B 的存在。但实际上 A 和 B 的存在可能是另外一个 confounding 干扰变量的影响， A 和 B 实际上没有任何内在的因果关系，他们只是关联（association）的关系。
　　第二个就是 DO 操作，就是去干预，假如改变某一个量，另外一个量会不会随之改变。如果我看到 A ，就说明看到 B，哪一天 A 消失了， B 是不是也消失了，还是 B 因为另外一个 confounding 的存在导致 B 一直存在，所以你可以通过此方法进行分析。
　　第三个是想象（imagine），你可以问 what if 问题，刚才我们在讲运筹优化的时候，会进行 what if 分析，问如果当初我们执行另外一个策略，会给我们带来什么。没有进行 what if 推论，就把一个策略执行到实际中是不科学的。所以，我们需要在仿真器里问「what if question」问题，即如果这样做结果会怎么样，是不是有更好的决策，这就是所谓的反事实（counterfactual），它实际没有出现，需要在脑子里进行想象，用数字孪生去想象，但必须保证 counterfactual 是无偏见的。所以，如果我们要做数字孪生，就必须解决 counterfactual 的问题。
　　
　　举例来说，在智能推荐系统里，首要的问题是数据偏差问题，如下图标记的有用户 user （U）、推荐列表 recommendation list (R)、正例 positive items (S) 。一个物品 items 要被用户喜欢并且被观察到，必须满足两个条件，首先要被推荐，如果没有推荐，用户就看不到，所以必须和 R 有关系；同时要跟用户 U 有关系，就是用户可能喜欢、也可能不喜欢。同时喜欢并且被推荐了，那么这个 item 是被观察了 S，在数据里面它是有 bias 的，如果它不在推荐系统里面，但用户是喜欢的，这种情况下是观察不到的。如果你使用观察到的这些数据来构建仿真器，必然存在一个偏差项，是被推荐过去，只有被推荐过的东西你才会看见被仿真。但实际上还有那些没有被推荐，实际上用户可能喜欢的，所以你需要问 what if question，用户是不是喜欢，如果用户喜欢，你就推荐，如果用户不喜欢，你就不推荐。
　　我们需要构建一个所谓的数据产生模型 data impression model 和用户反馈模型 user feedback model 。外生变量是需要模型的，在一般的推荐系统里面，它是不存在建模问题的。图中的 beta 也是个外层变量，需要对它进行建模并估计。当出现新数据时，我们需要估计 alpha 、beta ，然后再去纠正当前状态，进行真正的仿真。
　　我们也做了一些理论分析，如果我们有这样的仿真系统，数据多事效果会更好。这就面临一个问题，有了数据以后，我是用数据来构建仿真器再去做决策，还是直接用数据做优化决策。方案是如果你有 inductive bias 归纳偏置，构建到这个模型里面，这样用仿真器才有意义。
　　小数据决策
　　然后我再讲一下贝叶斯优化。
　　我带领华为团队解决电子设计自动化 EDA 问题时，我们用贝叶斯优化解决各种各样的 EDA 的问题。EDA 问题其实是一个离散优化 combination optimization 的问题，比如我们研究的一系列序列决策问题。我们在逻辑综合里面，想把整个的逻辑数据转换成另一个更实际的简化的逻辑实际，使它的逻辑功能完全不变，对于是否完全不变，我可以用 QoR 来横量它，QoR 值是多少，我是不知道的，我没有任何的数学表达，但是经过不断的试错，可以达到最优，但怎么提高试错效率？显然我就可以用刚才讲的贝叶斯黑盒优化，对 QoR 进行建模，然后去解决这个问题。
　　今年我们也发表了论文来阐述怎样用贝叶斯优化来做逻辑综合。顺便提一下，我们为华为团队做的研究达到 SOTA 水平，该研究在公开测试数据里名列前茅，所以贝叶斯优化为解决逻辑综合问题提供了一个比较好的思路。
　　我再举另外一个例子，我想设计一个抗体能够抗击抗原，这两种蛋白质会发生一些反应。这里我们就要找出氨基酸的排列次序及其形成的蛋白质，使得 Binding-Energy 结合能最小化。使用穷举的方法几乎是不可能的，因为可能性空间太大了。小数据决策就需要贝叶斯优化了。
　　另外，我们如何形成应用大模型和大数据的思路？我们组做了很多多智能体强化学习方向的研究。那么，智能交互相关的研究只能用在游戏上吗，是不是可以用到其他应用上？回答是肯定的。我们最近做了一个游戏场景的「AI 奥林匹克」系列竞赛，因为游戏场景可以放大决策中的关键问题，使我们能够找到其中的规律。我们的目的是通过游戏的方式弄清楚决策中的技术方法，以用到其他各种场景中。
　　这个「AI 奥林匹克」竞赛和其他仿真游戏的区别是什么呢？首先在目的上，我们做这个比赛是为了探究智能体泛化性，以用于实际场景。第二，在「AI 奥林匹克」竞赛中，智能体并不能获取全部信息，而是只提供部分信息，我们想知道系统如何解决问题。
　　我们只有把一个跨任务的，信息不完备的场景弄清楚，才能够解决一些实际问题，模型的泛化能力也就增强了。
　　我们在「AI 奥林匹克」系列竞赛中运用了多智能体人工智能的思路。关于「多智能体人工智能是不是只能用在游戏里，还是也能用于其他场景」这个问题，我们认为在多智能体场景下可以「重新制定（reformulate）」实际问题。比如在运筹优化里，包括经典的旅行推销员问题（TSP，travel salesman problem）多智能体学习能发挥跨任务的优势，也在 meta level 层面解决这个问题。
　　TSP 是一系列问题，这一系列问题是有共性的。我们要在 meta level 上找到这个共性，建模一个新的 TSP 问题，只需少量数据就能很快找到答案，进而对提出解决方案提供指导作用。
　　传统的优化算法只能解决一个 TSP 问题，对于第二个第三个等等 TSP 问题没有泛化性。第二，传统方法中能够提升模型能力的只有数据。解决第一个问题的数据可以和之后新添加的数据结合起来，让模型的能力进一步提高。因此这种方法是数据驱动的（data driven）。
　　我们用多智能体的方式，把数据驱动和 meta level 结合到 TSP server 里。简单来说，我会做一个 meta level 的求解方法，然后有一个 Oracle 评价系统与之对抗。我让求解方法和评价系统 Oracle 之间就产生一个对于 TSP 问题的竞赛。显然我们可以用互相竞争的多智能体方法来解决这个问题，例如提供一个跨任务的求解方法。多智能体人工智能在 meta level 可以帮助解决一些运筹优化的重要问题。
　　我们发现这里存在一个趋势：从单一问题迁移到多个任务（meta level）后，我们可以很快地 pre-solve 预先解决新问题，这类似于 NLP 自然语言问题中预训练模型的概念。
　　去年，UC 伯克利考虑在决策智能中使用 transformer 大模型和一些称为离线学习「offline training」的方法，拉近了 NLP 自然语言和 CV 机器视觉的距离。offline 的意思是运用一些策略（policy）得到一些数据，然后完全抛开仿真器，直接拿数据进行有监督训练。
　　我们在此基础上又测试了多智能体。offline 训练能够达到的水平是有限的，因为数据有局限性。而 online 方法通过微调和添加数据能够不断改进训练效果。
　　使用 transformer 做决策的好处是什么？首先它的泛化性非常强，这一个模型几乎在所有任务上的效果都很好。以前每个任务都单独用一个模型，而现在一个模型就能解决所有任务。前段时间 DeepMind 发布了一个大模型，可以解决 CV、NLP 等任务。当然，DeepMind 的大模型不包括 Multi-Agent ，但这足以证明一个模型解决多个领域任务是大势所趋。我们应该创建一个在跨任务、联合 CV、NLP 的通用模型。
　　在预训练方面，我们认为多智能体训练可以用语言模型来做，把所有的智能体和决策都生成出来。因此，语言模型的方法可以直接迁移到多智能体上，以达到一个非常好的效果。
　　©THE END转载请联系本公众号获得授权投稿或寻求报道：查看全部

　　再来看所谓的奖励函数。如果自然界长成这个样子 s，我采取了行动 u，那么我的获利应该是多少，我们用 R(s,u) 这个函数来描述？只要你可以定义这个获利，就可以最大化平均的获利值。我选择自己的决策，最大化预期利益或者说平均利益。贝叶斯决策理论可以告诉你，这个就是最优的决策。刚才其他演讲者讲到强化学习和优化，无外乎就是上述公式，优化一个特定的（奖励）函数。我选择的这个决策变量使得这个函数值是最大化的。
　　另外一个更基础的问题来了，什么是智能呢？其实，智能可以用函数来解决。我使得自己的长期收益是最好的，比如说经典的巴普洛夫条件反射，为什么狗可以跟它的铃声和食物产生联系呢？为什么一听到铃声就会产生唾液呢？这是因为它学习到了你经常一敲铃便会给它食物，这样狗当然就迅速行动了。
　　从长期角度来讲，对狗这个生命体来说，它优化了自己「迅速跑到这边获取食物」。狗的行为最优的的表现是它可以适应环境获取食物，从长时间来达到它的受益。
　　但实际上，我们说做（机器）决策智能的时候，包括将来讲的应用如互联网广告，已经广泛地应用到了。我之前做联合创始人的公司就是专门做强化学习用于互联网广告。除了强化学习，决策智能有其他的表现形式或数学表达，能够解决不一样的东西。
　　刚才有演讲者讲到了运筹优化的内容。运筹优化本质是个优化问题，就是我给定一个目标函数 f（x），它可以是知道的，也可以是不知道的。在不知道的情况下，我们叫它黑盒优化；在知道的情况下，我们叫它白盒优化。然后，我的目的是要找到决策 x，我选择自己的决策并最大化函数 f。这个函数可以是刚才说到的 utility 奖励函数，也可以是其他各种各样的函数。那么如果从这个角度来讲的话，它就有很广泛的用途。
　　比如其他演讲者所讲的电厂和 EDA 优化的问题。生物化学上，我们甚至可以用它来寻找抗体，就是用机器学习或黑盒优化的方法，帮助找到更合适的抗体。还有演讲者提到的 AutoML，它们本质上也是黑盒优化问题。
　　黑盒优化里面比较好的方法就是贝叶斯优化，比如我们做优化时允许去试错。我们找一些 x「喂」到 f 里面，然后去测试（给出 f 的值）。如果说我们的任务是找抗体的话，则允许做一些黑盒实验，看看化学反应如何。然后我们再去建一个对 f 了解的模型，叫做代理模型（surrogate model）。接着再创建一个采集函数 (acquisition function)，告诉我们下一个实验应该怎么做 (下一个测试的输入值 x 应该是什么)，然后无限循环往复，直到实现最优。
　　贝叶斯优化好处是什么？它从理论上保证能够找到全局最优。同时它也能减少做实验的次数，所以贝叶斯优化可以帮助我们在数据稀疏的情况下，去优化决策。
　　大约一年前，我带着华为团队一起做了一个贝叶斯优化算法，获得 NeurIPS 黑盒优化冠军，名字为河伯，该系统已经开源，被研究者广泛使用，该研究应用领域包括在 Auto ML、蛋白质设计、 MindSpore 超参数优化、机器学习系统里的 rate 超参数优化，此外还包括各种各样的实际场景应用。接下来我会介绍几个例子，我认为这是比强化学习更容易落地、更接地气的方法，因为这种方法对数据要求不高。
　　以上是我介绍的决策智能一些重点内容。那么决策智能难点在哪？刚才有演讲者讲了安全的知识，安全在决策智能中非常重要，我会稍微介绍一下最近的一些算法，然后我再讲一些因果分析的内容（对决策的可解释性提供了理论基础）。
　　大约十多年前，我刚去 UCL 的时候，对互联网搜索的问题很感兴趣。其中很关心搜索引擎的不确定性问题，比如用户使用百度搜索 iPhone 4 代，能搜索出结果。但是当用户搜索了一个困难的主题关键字，可能没有一个跟用户的需求相关的，那么用户就会不在用这个搜索引擎，改用其他的搜索方法。所以搜索引擎需要有个有效的方法避免以上问题出现。
　　我们该如何看待这个问题？其实就是最大化用户满意度。我们在 2009 年做过一套理论，参考了投资的一些原则，就是不要把所有的钱都投到同一个地方。为什么这样做？因为股票价值有高有低，之间此起彼伏，你需要多样化投资组合。同样的道理，你在做搜索推荐或者互联网广告时，不要把你认为用户相关的都展示出来，万一判断有错怎么办，所以你要多样化你的文件列表。当时在学术圈，大家都已经开始做多元化排序了，但其实没有给出一套理论，我们给出了一套理论，该理论告诉搜索引擎在什么时候多样化，多样化多少的的。SIGIR 对这个工作非常认可，去年授予了 test of time honorable mention: 十年、甚至十几年之后再去看这篇文章，还是非常有影响力的。我本身对这个工作还是非常自豪的。
　　安全和鲁棒
　　在工业互联网时代，需要做更加精细的决策，安全与风险是其中重要的部分。我之前带领了华为诺亚实验室伦敦团队，在 2022 年发表在机器学习会议 ICML 上的一篇文章（SAUTE RL）。几乎肯定（或以概率为一）的满足安全约束对于在现实应用中部署强化学习 (RL) 至关重要。例如，飞机着陆和起飞在理想情况下应该以概率 1 发生。我们团队通过引入安全增强的马尔可夫决策过程（MDP）来解决这个问题，其中通过将安全约束增强到状态空间并重塑目标来消除安全约束。团队证明了 “炒” （Saute）过的马科夫决策过程（ MDP）满足贝尔曼（Bellman）方程，并更接近于解决几乎肯定满足约束的安全强化学习。团队认为 Saute MDP 采用了一个不同角度对待安全决策问题。例如，新提出的方法具有即插即用的特性，即任何 RL 算法都可以 “炒”。此外，状态增强允许跨安全约束的策略泛化。最终表明，当约束满足非常重要时，Saute RL 算法可以超越其最先进的算法。在下图所示的实验中，可以 Saute RL 算法在一些极端的测试下，安全性仍然是绿色的，图中虚线表示 100% 安全。Saute RL 算法在一些安全性要求较高的场景广泛应用，比如电力、自动驾驶等。
　　这是我们做的一个实验，可以看到在一些 setting 极端策略下，我们的方法保证 100% 安全。不管从实验上、还是理论上我们都可以 100% 得到安全保障。如果用这些方法，我们在一些严格的安全性场景里，比如电力、自动驾驶等，我们就可以广泛地使用这些强化学习和优化决策的方法了。
　　另外一个更难的问题是如何保证模型训练安全。我们将类似的方法运用到训练中。训练过程中加入一个安全状态，它会记录历史上的操作是否安全，在学习的过程中可以根据安全状态选择安全的路径。
　　因果分析
　　下面介绍因果分析，刚才有人讲到数字孪生，这其中涉及模型和数据的关系。所谓数字孪生，本质就是对真实世界建模，如果仅凭自己想象建模，那结果和真是世界差别很大。同样的道理，假如你有数据，但数据不代表真实情况，数据在采样的情况下就存在偏差，用存在偏差的数据建立模型，显然不能真实地反映情况，导致模型和数据之间有差别。如果你用这些数据建立数字孪生去仿真、去学习，显然不准确。所以数字孪生的核心问题就是建立必须要让它与环境一致、与数据一致。举例来说，在推荐系统里面，我们可以去做推荐的仿真，可以去仿真数据，但是要强调的是仿真必须跟真实情况保持一致。
　　我认为 Judea Pearl 因果分析的研究很有意义，给我们提供了很好的理论基础。他提出的结构化的因果模型（structure causal model）对因果关系提供了一个系统的描述。从我个人理解来讲，如果将其与图模型或者主流的统计方法相比的话，主要区别在于增加了外生变量，这些外生变量对系统会造成改变。我们必须有一套理论去理解它，而不是假设它不存在，假如这些外生变量不存在，你就没有规则去完全消除这些偏差（ bias）的问题。只有对这些外生变量建模，模型才会有效。Judea Pearl 的一个思路很有意思，就是系统的介绍了干预和想象的操作。比如 A 和 B 经常在一起，当有 A 的时候，预测 B 的存在。但实际上 A 和 B 的存在可能是另外一个 confounding 干扰变量的影响， A 和 B 实际上没有任何内在的因果关系，他们只是关联（association）的关系。
　　第二个就是 DO 操作，就是去干预，假如改变某一个量，另外一个量会不会随之改变。如果我看到 A ，就说明看到 B，哪一天 A 消失了， B 是不是也消失了，还是 B 因为另外一个 confounding 的存在导致 B 一直存在，所以你可以通过此方法进行分析。
　　第三个是想象（imagine），你可以问 what if 问题，刚才我们在讲运筹优化的时候，会进行 what if 分析，问如果当初我们执行另外一个策略，会给我们带来什么。没有进行 what if 推论，就把一个策略执行到实际中是不科学的。所以，我们需要在仿真器里问「what if question」问题，即如果这样做结果会怎么样，是不是有更好的决策，这就是所谓的反事实（counterfactual），它实际没有出现，需要在脑子里进行想象，用数字孪生去想象，但必须保证 counterfactual 是无偏见的。所以，如果我们要做数字孪生，就必须解决 counterfactual 的问题。
　　

　　举例来说，在智能推荐系统里，首要的问题是数据偏差问题，如下图标记的有用户 user （U）、推荐列表 recommendation list (R)、正例 positive items (S) 。一个物品 items 要被用户喜欢并且被观察到，必须满足两个条件，首先要被推荐，如果没有推荐，用户就看不到，所以必须和 R 有关系；同时要跟用户 U 有关系，就是用户可能喜欢、也可能不喜欢。同时喜欢并且被推荐了，那么这个 item 是被观察了 S，在数据里面它是有 bias 的，如果它不在推荐系统里面，但用户是喜欢的，这种情况下是观察不到的。如果你使用观察到的这些数据来构建仿真器，必然存在一个偏差项，是被推荐过去，只有被推荐过的东西你才会看见被仿真。但实际上还有那些没有被推荐，实际上用户可能喜欢的，所以你需要问 what if question，用户是不是喜欢，如果用户喜欢，你就推荐，如果用户不喜欢，你就不推荐。
　　我们需要构建一个所谓的数据产生模型 data impression model 和用户反馈模型 user feedback model 。外生变量是需要模型的，在一般的推荐系统里面，它是不存在建模问题的。图中的 beta 也是个外层变量，需要对它进行建模并估计。当出现新数据时，我们需要估计 alpha 、beta ，然后再去纠正当前状态，进行真正的仿真。
　　我们也做了一些理论分析，如果我们有这样的仿真系统，数据多事效果会更好。这就面临一个问题，有了数据以后，我是用数据来构建仿真器再去做决策，还是直接用数据做优化决策。方案是如果你有 inductive bias 归纳偏置，构建到这个模型里面，这样用仿真器才有意义。
　　小数据决策
　　然后我再讲一下贝叶斯优化。
　　我带领华为团队解决电子设计自动化 EDA 问题时，我们用贝叶斯优化解决各种各样的 EDA 的问题。EDA 问题其实是一个离散优化 combination optimization 的问题，比如我们研究的一系列序列决策问题。我们在逻辑综合里面，想把整个的逻辑数据转换成另一个更实际的简化的逻辑实际，使它的逻辑功能完全不变，对于是否完全不变，我可以用 QoR 来横量它，QoR 值是多少，我是不知道的，我没有任何的数学表达，但是经过不断的试错，可以达到最优，但怎么提高试错效率？显然我就可以用刚才讲的贝叶斯黑盒优化，对 QoR 进行建模，然后去解决这个问题。
　　今年我们也发表了论文来阐述怎样用贝叶斯优化来做逻辑综合。顺便提一下，我们为华为团队做的研究达到 SOTA 水平，该研究在公开测试数据里名列前茅，所以贝叶斯优化为解决逻辑综合问题提供了一个比较好的思路。
　　我再举另外一个例子，我想设计一个抗体能够抗击抗原，这两种蛋白质会发生一些反应。这里我们就要找出氨基酸的排列次序及其形成的蛋白质，使得 Binding-Energy 结合能最小化。使用穷举的方法几乎是不可能的，因为可能性空间太大了。小数据决策就需要贝叶斯优化了。
　　另外，我们如何形成应用大模型和大数据的思路？我们组做了很多多智能体强化学习方向的研究。那么，智能交互相关的研究只能用在游戏上吗，是不是可以用到其他应用上？回答是肯定的。我们最近做了一个游戏场景的「AI 奥林匹克」系列竞赛，因为游戏场景可以放大决策中的关键问题，使我们能够找到其中的规律。我们的目的是通过游戏的方式弄清楚决策中的技术方法，以用到其他各种场景中。
　　这个「AI 奥林匹克」竞赛和其他仿真游戏的区别是什么呢？首先在目的上，我们做这个比赛是为了探究智能体泛化性，以用于实际场景。第二，在「AI 奥林匹克」竞赛中，智能体并不能获取全部信息，而是只提供部分信息，我们想知道系统如何解决问题。
　　我们只有把一个跨任务的，信息不完备的场景弄清楚，才能够解决一些实际问题，模型的泛化能力也就增强了。
　　我们在「AI 奥林匹克」系列竞赛中运用了多智能体人工智能的思路。关于「多智能体人工智能是不是只能用在游戏里，还是也能用于其他场景」这个问题，我们认为在多智能体场景下可以「重新制定（reformulate）」实际问题。比如在运筹优化里，包括经典的旅行推销员问题（TSP，travel salesman problem）多智能体学习能发挥跨任务的优势，也在 meta level 层面解决这个问题。
　　TSP 是一系列问题，这一系列问题是有共性的。我们要在 meta level 上找到这个共性，建模一个新的 TSP 问题，只需少量数据就能很快找到答案，进而对提出解决方案提供指导作用。
　　传统的优化算法只能解决一个 TSP 问题，对于第二个第三个等等 TSP 问题没有泛化性。第二，传统方法中能够提升模型能力的只有数据。解决第一个问题的数据可以和之后新添加的数据结合起来，让模型的能力进一步提高。因此这种方法是数据驱动的（data driven）。
　　我们用多智能体的方式，把数据驱动和 meta level 结合到 TSP server 里。简单来说，我会做一个 meta level 的求解方法，然后有一个 Oracle 评价系统与之对抗。我让求解方法和评价系统 Oracle 之间就产生一个对于 TSP 问题的竞赛。显然我们可以用互相竞争的多智能体方法来解决这个问题，例如提供一个跨任务的求解方法。多智能体人工智能在 meta level 可以帮助解决一些运筹优化的重要问题。
　　我们发现这里存在一个趋势：从单一问题迁移到多个任务（meta level）后，我们可以很快地 pre-solve 预先解决新问题，这类似于 NLP 自然语言问题中预训练模型的概念。
　　去年，UC 伯克利考虑在决策智能中使用 transformer 大模型和一些称为离线学习「offline training」的方法，拉近了 NLP 自然语言和 CV 机器视觉的距离。offline 的意思是运用一些策略（policy）得到一些数据，然后完全抛开仿真器，直接拿数据进行有监督训练。
　　我们在此基础上又测试了多智能体。offline 训练能够达到的水平是有限的，因为数据有局限性。而 online 方法通过微调和添加数据能够不断改进训练效果。
　　使用 transformer 做决策的好处是什么？首先它的泛化性非常强，这一个模型几乎在所有任务上的效果都很好。以前每个任务都单独用一个模型，而现在一个模型就能解决所有任务。前段时间 DeepMind 发布了一个大模型，可以解决 CV、NLP 等任务。当然，DeepMind 的大模型不包括 Multi-Agent ，但这足以证明一个模型解决多个领域任务是大势所趋。我们应该创建一个在跨任务、联合 CV、NLP 的通用模型。
　　在预训练方面，我们认为多智能体训练可以用语言模型来做，把所有的智能体和决策都生成出来。因此，语言模型的方法可以直接迁移到多智能体上，以达到一个非常好的效果。
　　©THE END转载请联系本公众号获得授权投稿或寻求报道：

编程如何快速搞定google文章爬虫搜索引擎索引关键词权重算法

网站优化 • 优采云发表了文章 • 0 个评论 • 103 次浏览 • 2022-07-04 16:02 • 来自相关话题

　　编程如何快速搞定google文章爬虫搜索引擎索引关键词权重算法
　　搜索引擎主题模型优化关键词优化ebm高质量搜索引擎索引关键词权重算法低质量关键词权重减少ebmrobotboat改进因特网蜘蛛效率基于站点的搜索引擎实时检索实用索引指南详尽的内容如何将现有不适合添加到搜索引擎第三方主题模型的内容加入到搜索引擎索引树中索引树索引树索引树索引树博客索引树博客索引树通用文章索引树通用文章索引树通用文章索引树-通用文章索引树搜索引擎实践：标题如何重点定位文章的中心思想robotboat文章检索模型robotboat系列文章robotboat简介。
　　编程如何快速搞定google文章爬虫
　　搜索引擎适合于客户查询，需要从知识库中查询信息，所以，对于这种场景，其实关键点还是在于数据的整理，关键词分析等等。优化搜索引擎搜索引擎就是收集网站上的所有数据，然后统计这些数据，根据这些信息进行推断，进行排名以及相关优化。所以，在进行搜索引擎优化之前，你先要了解好你这个关键词。在做搜索引擎优化之前，需要对这个关键词以及行业有很好的了解，了解这个行业里的网站情况，用户的搜索习惯，平台的优势以及劣势。如果真的是做好搜索引擎优化，你需要对这个行业以及网站进行分析，从中你可以总结一些经验。
　　
　　目标网站：搜索引擎优化的关键词:优化策略、建站方法、网站构建、注册流程、数据分析、faq等数据和技术方面：seo工具、seo人才等搜索引擎优化涉及的内容：了解站长平台的功能对于搜索引擎优化要点：根据你们自己的业务和数据实际情况，制定相应的策略。
　　1、改善网站的友好性，
　　2、网站的内容丰富性：网站标题、网站描述、网站导航、网站内容、网站结构和结构化数据；
　　
　　3、友好性与内容完善性。
　　4、明确网站在搜索引擎中的定位。在开始优化前需要明确你们在网站优化中的主要工作重点，然后分门别类列表优化相应的内容，可以使用一些工具来帮助工作。
　　5、利用其他搜索引擎友好性增加用户互动，
　　6、做一个分类，全面的列出搜索引擎优化中需要注意的事项，只列出简单的事项，使搜索引擎蜘蛛爬取爬虫可以爬行它。seo优化的流程：数据分析：网站数据，同行业用户评价；网站优化，seo深度分析，抓取收录，标题、描述、结构、内容等细节优化；常规工作：robots、文件上传、优化info、各种数据统计等工作。查看全部

　　编程如何快速搞定google文章爬虫搜索引擎索引关键词权重算法
　　搜索引擎主题模型优化关键词优化ebm高质量搜索引擎索引关键词权重算法低质量关键词权重减少ebmrobotboat改进因特网蜘蛛效率基于站点的搜索引擎实时检索实用索引指南详尽的内容如何将现有不适合添加到搜索引擎第三方主题模型的内容加入到搜索引擎索引树中索引树索引树索引树索引树博客索引树博客索引树通用文章索引树通用文章索引树通用文章索引树-通用文章索引树搜索引擎实践：标题如何重点定位文章的中心思想robotboat文章检索模型robotboat系列文章robotboat简介。
　　编程如何快速搞定google文章爬虫
　　搜索引擎适合于客户查询，需要从知识库中查询信息，所以，对于这种场景，其实关键点还是在于数据的整理，关键词分析等等。优化搜索引擎搜索引擎就是收集网站上的所有数据，然后统计这些数据，根据这些信息进行推断，进行排名以及相关优化。所以，在进行搜索引擎优化之前，你先要了解好你这个关键词。在做搜索引擎优化之前，需要对这个关键词以及行业有很好的了解，了解这个行业里的网站情况，用户的搜索习惯，平台的优势以及劣势。如果真的是做好搜索引擎优化，你需要对这个行业以及网站进行分析，从中你可以总结一些经验。
　　

　　目标网站：搜索引擎优化的关键词:优化策略、建站方法、网站构建、注册流程、数据分析、faq等数据和技术方面：seo工具、seo人才等搜索引擎优化涉及的内容：了解站长平台的功能对于搜索引擎优化要点：根据你们自己的业务和数据实际情况，制定相应的策略。
　　1、改善网站的友好性，
　　2、网站的内容丰富性：网站标题、网站描述、网站导航、网站内容、网站结构和结构化数据；
　　

　　3、友好性与内容完善性。
　　4、明确网站在搜索引擎中的定位。在开始优化前需要明确你们在网站优化中的主要工作重点，然后分门别类列表优化相应的内容，可以使用一些工具来帮助工作。
　　5、利用其他搜索引擎友好性增加用户互动，
　　6、做一个分类，全面的列出搜索引擎优化中需要注意的事项，只列出简单的事项，使搜索引擎蜘蛛爬取爬虫可以爬行它。seo优化的流程：数据分析：网站数据，同行业用户评价；网站优化，seo深度分析，抓取收录，标题、描述、结构、内容等细节优化；常规工作：robots、文件上传、优化info、各种数据统计等工作。

搜索引擎主题模型优化目标是什么？如何建立域名主题优化

网站优化 • 优采云发表了文章 • 0 个评论 • 189 次浏览 • 2022-07-02 20:01 • 来自相关话题

　　搜索引擎主题模型优化目标是什么？如何建立域名主题优化
　　搜索引擎主题模型优化是将搜索引擎结果发往合适的域名上，但是对于域名优化来说，搜索引擎主题模型优化就可以视为一个“营销事件”。从我本人做产品经理，产品开发，以及做增长黑客这两个这个过程，我了解到目前在整个行业里，产品经理和产品开发的产出物中最核心的一部分就是mvp（最小可行性产品），就是对于一个产品或服务，它最小可行性产品的不断迭代。
　　
　　这个过程很关键，这里我们可以把搜索引擎主题模型优化看作产品mvp的迭代，它是从域名主题里顺藤摸瓜，然后层层筛选的过程。如何建立域名主题模型呢？通常来说，域名主题优化的目标要明确：1.搜索引擎主题模型的优化目标是什么？2.搜索引擎主题模型怎么确定？3.搜索引擎主题模型怎么做？那么，接下来就需要分析你域名网站上获取的信息，包括你域名主题里面的关键词，你主题里面关键词和关键词对应的关键词里的页面的数量以及页面的质量，在分析你词对应的页面中你的主题的栏目的质量，这些质量都对应了你域名主题主题的质量程度。
　　找到所有你要优化的关键词，按照词汇的个数、搜索量、频道划分、栏目划分、业务划分，比如你做京东，京东这个词在百度里面的搜索量为6w个，那么假设你获取了6w个关键词，也就是所有的关键词，当我们有100w个关键词之后，我们可以把这100w个关键词拼起来，这个过程就是域名主题模型的搭建过程。那么，对于一个域名主题模型如何搭建呢？1.主题主要围绕两个相同的词，这个非常重要，因为关键词人群太相似了，会减小域名主题的覆盖量，比如你做拼多多产品，拼多多这个词，你发现大部分的买家都是80后，那么80后喜欢拼多多这个词，这个时候你的主题就可以这么打。
　　
　　但是对于20-30岁的群体来说，比如你做一个50-80岁的人，他可能想做拼多多这个主题，就已经打不到他们了。但是大家都喜欢这个主题，你是怎么解决这个问题的？拼多多也可以拿到类似的关键词，那么也都打上相关的主题，即使他们不在拼多多买，但是他们也想买，这个时候可以一起打上，那么整个拼多多域名主题的覆盖也会增大，那整个拼多多的结果也就上去了。
　　2.域名域名模型建立之后，最重要的事情就是域名主题最后一句，主题最后一句一定要准确，为什么这么说呢？因为如果域名主题最后一句，整个域名主题的覆盖率不到10%，那这个域名在别人眼里是不是不做也罢呢？因为在第一步词汇的建立之后，再获取多少关键词？其实全是0，所以第一步建立主题之后，把这个关键词打准，对每个关键词都做它对应的主题，然后就会有源源不断的人陆续上车，并且有。查看全部

　　搜索引擎主题模型优化目标是什么？如何建立域名主题优化
　　搜索引擎主题模型优化是将搜索引擎结果发往合适的域名上，但是对于域名优化来说，搜索引擎主题模型优化就可以视为一个“营销事件”。从我本人做产品经理，产品开发，以及做增长黑客这两个这个过程，我了解到目前在整个行业里，产品经理和产品开发的产出物中最核心的一部分就是mvp（最小可行性产品），就是对于一个产品或服务，它最小可行性产品的不断迭代。
　　

　　这个过程很关键，这里我们可以把搜索引擎主题模型优化看作产品mvp的迭代，它是从域名主题里顺藤摸瓜，然后层层筛选的过程。如何建立域名主题模型呢？通常来说，域名主题优化的目标要明确：1.搜索引擎主题模型的优化目标是什么？2.搜索引擎主题模型怎么确定？3.搜索引擎主题模型怎么做？那么，接下来就需要分析你域名网站上获取的信息，包括你域名主题里面的关键词，你主题里面关键词和关键词对应的关键词里的页面的数量以及页面的质量，在分析你词对应的页面中你的主题的栏目的质量，这些质量都对应了你域名主题主题的质量程度。
　　找到所有你要优化的关键词，按照词汇的个数、搜索量、频道划分、栏目划分、业务划分，比如你做京东，京东这个词在百度里面的搜索量为6w个，那么假设你获取了6w个关键词，也就是所有的关键词，当我们有100w个关键词之后，我们可以把这100w个关键词拼起来，这个过程就是域名主题模型的搭建过程。那么，对于一个域名主题模型如何搭建呢？1.主题主要围绕两个相同的词，这个非常重要，因为关键词人群太相似了，会减小域名主题的覆盖量，比如你做拼多多产品，拼多多这个词，你发现大部分的买家都是80后，那么80后喜欢拼多多这个词，这个时候你的主题就可以这么打。
　　

　　但是对于20-30岁的群体来说，比如你做一个50-80岁的人，他可能想做拼多多这个主题，就已经打不到他们了。但是大家都喜欢这个主题，你是怎么解决这个问题的？拼多多也可以拿到类似的关键词，那么也都打上相关的主题，即使他们不在拼多多买，但是他们也想买，这个时候可以一起打上，那么整个拼多多域名主题的覆盖也会增大，那整个拼多多的结果也就上去了。
　　2.域名域名模型建立之后，最重要的事情就是域名主题最后一句，主题最后一句一定要准确，为什么这么说呢？因为如果域名主题最后一句，整个域名主题的覆盖率不到10%，那这个域名在别人眼里是不是不做也罢呢？因为在第一步词汇的建立之后，再获取多少关键词？其实全是0，所以第一步建立主题之后，把这个关键词打准，对每个关键词都做它对应的主题，然后就会有源源不断的人陆续上车，并且有。

搜索引擎主题模型优化的主要工作原理是什么呢？

网站优化 • 优采云发表了文章 • 0 个评论 • 96 次浏览 • 2022-06-22 18:01 • 来自相关话题

　　搜索引擎主题模型优化的主要工作原理是什么呢？
　　搜索引擎主题模型优化的主要工作原理是什么？因为seo(搜索引擎优化)本身在国内没有什么发展，故很多人不太了解。今天，笨虎就简单说一下seo的基本内容，让大家感受一下。一提起seo，很多人第一印象就是“网站优化”，通过对网站的优化，提高网站的搜索排名。这是一个很形象的比喻，因为大家实际上都知道“优化”这个词，所以不要下次再说自己是“优化”的。
　　“优化”这个词在互联网上面的运用，本质上还是传统意义上的seo。但由于数字广告和搜索引擎泛化的结果，seo已经从专业的seo转向了普通大众。比如你只要搜索“渣渣辉”，下面的图像就是渣渣辉的宣传图片。渣渣辉也是玩游戏的，照片可以是美美哒，也可以暴力一点，说不定还能引起路人的支持。▲渣渣辉渣渣辉这就是seo的基本模型：向搜索引擎提供网站的正面信息，提高网站的搜索排名。
　　注意：影响seo排名的因素有很多，不同的网站搜索引擎对不同的因素的权重就有不同的排序，这就是搜索引擎优化。比如，你的公司名字要求有品牌价值。这时，如果你的网站无论如何都提供不了品牌价值，那么你的网站排名就肯定不会很好。因为品牌价值跟网站的正面信息有关，它不能像搜索引擎的排名那样，随着网站的正面信息的提高而提高权重。
　　因此，网站正面信息的提供关系到排名。可以看到，正面信息的提供，需要你站在搜索引擎的角度。网站正面信息的提供，一方面是明确、有针对性的展示，让用户一眼看出他需要看的内容；另一方面是良好的隐私性，不能有太明显的广告。如何做到这点呢？答案就是：一个站点一个特性，即站点最好有不同的标签，使搜索引擎能对你的网站提供不同侧重点的访问。
　　而且，标签一定要用户友好，尽量避免用户一上来就觉得网站广告做得浓郁。▲用户友好的网站标签截图（左）对搜索引擎来说，网站提供正面信息只是最基本的要求，用户能否打开它的页面，它能提供给用户什么服务才是最重要的。回到刚才的例子，标签对于用户来说，也是一样。假设你们的公司叫“渣渣辉”，如果你们的网站提供给用户的全是恶搞的相关信息，用户的打开体验就会非常差。
　　这些也都是seo中提到的“体验”，就是针对用户在体验上提高用户体验。网站正面信息的提供和网站用户体验的提高其实是同一个东西。所以这就是很多人把seo错误地分解成了两个东西，而不知道正确工作应该是这样的。seo的工作其实是一个复杂的多层级的工作，单单做seo的人是无法解决所有问题的。他们需要懂得很多东西，才能对整个工作产生较大的作用。我的文章以及我的公众号，笨虎的思考都会有专。查看全部

　　搜索引擎主题模型优化的主要工作原理是什么呢？
　　搜索引擎主题模型优化的主要工作原理是什么？因为seo(搜索引擎优化)本身在国内没有什么发展，故很多人不太了解。今天，笨虎就简单说一下seo的基本内容，让大家感受一下。一提起seo，很多人第一印象就是“网站优化”，通过对网站的优化，提高网站的搜索排名。这是一个很形象的比喻，因为大家实际上都知道“优化”这个词，所以不要下次再说自己是“优化”的。
　　“优化”这个词在互联网上面的运用，本质上还是传统意义上的seo。但由于数字广告和搜索引擎泛化的结果，seo已经从专业的seo转向了普通大众。比如你只要搜索“渣渣辉”，下面的图像就是渣渣辉的宣传图片。渣渣辉也是玩游戏的，照片可以是美美哒，也可以暴力一点，说不定还能引起路人的支持。▲渣渣辉渣渣辉这就是seo的基本模型：向搜索引擎提供网站的正面信息，提高网站的搜索排名。
　　注意：影响seo排名的因素有很多，不同的网站搜索引擎对不同的因素的权重就有不同的排序，这就是搜索引擎优化。比如，你的公司名字要求有品牌价值。这时，如果你的网站无论如何都提供不了品牌价值，那么你的网站排名就肯定不会很好。因为品牌价值跟网站的正面信息有关，它不能像搜索引擎的排名那样，随着网站的正面信息的提高而提高权重。
　　因此，网站正面信息的提供关系到排名。可以看到，正面信息的提供，需要你站在搜索引擎的角度。网站正面信息的提供，一方面是明确、有针对性的展示，让用户一眼看出他需要看的内容；另一方面是良好的隐私性，不能有太明显的广告。如何做到这点呢？答案就是：一个站点一个特性，即站点最好有不同的标签，使搜索引擎能对你的网站提供不同侧重点的访问。
　　而且，标签一定要用户友好，尽量避免用户一上来就觉得网站广告做得浓郁。▲用户友好的网站标签截图（左）对搜索引擎来说，网站提供正面信息只是最基本的要求，用户能否打开它的页面，它能提供给用户什么服务才是最重要的。回到刚才的例子，标签对于用户来说，也是一样。假设你们的公司叫“渣渣辉”，如果你们的网站提供给用户的全是恶搞的相关信息，用户的打开体验就会非常差。
　　这些也都是seo中提到的“体验”，就是针对用户在体验上提高用户体验。网站正面信息的提供和网站用户体验的提高其实是同一个东西。所以这就是很多人把seo错误地分解成了两个东西，而不知道正确工作应该是这样的。seo的工作其实是一个复杂的多层级的工作，单单做seo的人是无法解决所有问题的。他们需要懂得很多东西，才能对整个工作产生较大的作用。我的文章以及我的公众号，笨虎的思考都会有专。

搜索中的Query扩展技术

网站优化 • 优采云发表了文章 • 0 个评论 • 110 次浏览 • 2022-06-20 14:21 • 来自相关话题

　　搜索中的Query扩展技术
　　前言
　　最近，我司各条业务线对于搜索优化的需求日益增多，NLP组也将对搜索业务给予更多的工作支持。后续分享，我们会关注过往的知识图谱、短本文理解等相关技术如何落地到搜索业务中。
　　影响搜索结果的因素有很多，包括对短文本的正确理解（实体词识别、纠错、意图分析等）、长文本良好结构化（关键词抽取、主题词抽取、文本分类等）以及排序模型（召回策略、LTR、语义匹配等）。各种优化算法落在以上三个步骤中，对不同指标产生影响。
　　对于搜索优化，我们的建议是从召回策略开始着手。理由是这个步骤与实际业务方最近，当理清业务逻辑后，可以快速实施,看见变化。另外，召回阶段是整个搜索流程中的基石，所有后续的排序都基于召回的候选列表，先规划好召回策略，才可能尽量避免后续调整基石，导致与后续“精排”相互影响的境地。
　　那么改进召回我们一般会做些什么呢？首先一定是通过产品分析、用户调研来了解什么内容适合在这个搜索场景里展示，随后抡起大刀修改检索的字段或公式。有了baseline之后，我们在观察检索回的内容有什么问题。可能是没有匹配内容，可能是最匹配的内容排序靠后，或者可能是除了字面匹配，其他内容相关性差等等。此时，就可以上一些影响召回的模块，比如Query词权重分配、动态时效性判定、Query扩展等。后面会陆续有文章分享其他技术，本文我们先关注如何做Query扩展。
　　总的来说，召回于搜索是满足检索内容的大概范围，排序是次要的，需要关注的是Query与召回列表的相关度（字词层面和主题层面）。我们需要Query扩展技术的原因这里大致将它们归纳为三个方面。首先，用户输入的Query普遍较短，平均2-3个词，可能无法很好命中需要找的内容；其次，Query中的词通常会与多个主题关联，搜索引擎根据简短的几个词检索返回的内容可能不是用户所关心的那个主题；另外，用户可能对自己找的东西只有一个大致的概念（举个栗子，假设用户想要找“黑人抬棺”的视频，但是并不知道这个词的准确表述，转而使用“棺材”、“黑人” 这些词来搜索），Query扩展此时可理解为类似联想的功能，或者可以理解为将某个“罕见”搜索词改写成“常见”搜索词。
　　完整的Query扩展技术路线可见下图
　　
　　对原始Query首先需要做若干预处理，包括必要的纠错、补全，从Query中筛选出需要进行扩展的主题词或实体词，对最终的目标词完成扩展。这里我们着重关注Expansion Terms部分。
　　从哪里扩展
　　首先考虑扩展词从哪里来，这点上的思路和大部分语义相关的NLP任务类似，想法其实很直白，要不从用户习惯、行为中来，要不从描述事物本身语义中来：
　　一、业务场景语境
　　从用户的搜索log中可以挖掘出大量搜索词的固定搭配
　　
　　这些词首先保证了与原始Query较高的匹配度（都包含“知识”这个词），在业务上也满足大多数用户关注的话题。缺点是这一类扩展词仅来自于统计学层面，与语义无关，无法满足语义层面上的相关性。
　　二、文档语料
　　除了来自用户的搜索Query，文档库也是扩展词的重要来源。丰富的语境能够提供词之间的相互关系
　　
　　这类扩展词的缺点也比较明显，它与原始Query存在文本上的差异较大，增加召回的同时，可能会牺牲一定的匹配度。
　　三、构建领域知识库
　　最后一个途径是构建特定的领域知识库，优点是对语义相关度可以做更精准的控制，但是构建成本较高，同时如何将知识信息融入到原统计机器学习的算法中也有不小难度。
　　当然，理想的形态必然是混合以上三种来源，取其优点，可以观察谷歌的相关搜索：
　　
　　融合了字面、语义、知识多方面的相关性。
　　扩展模型思路
　　到模型部分，主要处理的就是原始Query中的term与待扩展的term/phrase如何产生关联。目前主流方案为两大类，一类是以贝叶斯模型为核心，统计扩展term与Query之间的条件概率。另一类的思路是把问题抽象成一个翻译模型，将Query中的词从scr到target语言完成改写。
　　一、相关模型
　　这种方案其实特别直白，Query词与扩展词在语料中共现值越大，说明它们相关性越高。也很容易想到使用TF-IDF一类的方式去做。经典的文献可以看这篇早在02年发表的工作：
　　《Probabilistic Query Expansion Using Query Logs》
　　作者提出需要做Query扩展的原因是认为用户输入的Query词与实际文档集中的词存在差异，所以在传统BM25算法搜索的过程中很有可能无法命中。下图是作者做的验证工作，将文档和Query都使用词袋向量表示，向量中元素值为TF-IDF，可以看到峰值区间对应的相似度并不高。
　　需要构建这种联系很自然的方式就是利用用户行为日志数据，用贝叶斯模型构建概率分布：
　　
　　最终公式可以表示为：
　　
　　式子右侧括号中分别融合了扩展词在文档集中的先验概率、Query词与文档在交互session中的共现频数以及Query词在交互session中的频数。
　　虽然这篇文章过去了将近20年，但是后续的利用相关模型的算法都逃不出这个套路，方法简单却有效，在刚着手做该任务时不妨可以选它作为baseline。
　　往后大家对于这个套路的Query扩展优化，多关注于提高扩展词的质量。一个很自然的逻辑就是可以用term作为扩展词，同样地，phrase或concept短语也可以。
　　《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
　　比如类似这篇文章中，因为Query中出现的term与它们对应的主题是多对多的，作者通过Query聚类挖掘出潜在的几种意图concept词，结合考虑Query Session的问题再进行后续扩展。
　　
　　二、翻译模型
　　除了挖掘出扩展词的方案，另一个方向是对Query词进行直接改写。仍然从最简单的开始，各种复杂模型的起点其实都源自符合人类直觉的简单假设。
　　《The Mathematics of Statistical Machine Translation: Parameter Estimation》
　　这是篇年代更加久远的文章，发表于1993年，它就是著名的IBM算法。本身与Query扩展无关，主要工作是做机器翻译，但是它阐述了翻译模型最原始的假设：
　　
　　完成翻译，我们要完成的无非是两件事：1）给定一个待翻译的句子，返回目标语言表达这个句子各个词意思的词；2）将原始语言的词与目标语言的词一一对应（alignment）。
　　而IBM算法的核心就是把这个问题抽象成“对齐”分布式是一个隐变量的概率问题：
　　
　　利用EM算法完成求解即可。
　　《Towards concept-based translation models using search logs for query expansion》
　　做Query扩展时，这一思想也被迁移过来：
　　
　　
　　连公式的形式都与原IBM算法是一致的，式子中theta就是改写操作中原始词与目标词的对齐概率参数。文章中，作者也进一步实验了phrase和concept词的结果。同时，配合 term weighting 一起食用，效果更好喔！
　　《Learning to Rewrite Queries》
　　再后续，大家会考虑进一步优化alignment分布的学习以及融入更多的语义特征进去，毕竟IBM算法仅从统计词频的角度估算分布还是太过单薄。近年来深度学习的发展自然就带动一些传统模型向神经网络向的方法上迁移：
　　
　　《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
　　谷歌在 2018 ICLR 上发表的工作合并了使用序列模型完成Query改写，考虑使用强化学习来进一步增强
　　
　　这个方案的大致思路是，模型与索引系统连接，若改写后的Query可以索引出排序更靠前的内容，则给予强化模型正向的激励。而且，train好的强化模型也可以倒过来finetune改写模型。
　　增强语义相关性
　　可以看到，计算原始Query到扩展词或改写词的关联已经有非常多成熟的方法，甚至可以在自己场景里设计比较tricky的强化模型方案。而我们认为进一步提高效果的关键，还是需要主动对业务内容的组织、理解、良好的结构化。目前火热的各种文本预训练模型、知识图谱等都印证了这一点。常常看到有人看衰知识图谱发展，不可否认因为它没有一个大而独立的场景，所以它必然无法像CV那样大放光芒。但是我们一直认为知识图谱的技术目前最合理的使用方案是浸润在日常的各个技术中，它是帮助老技术突破瓶颈的途径，没有新东西，听起来当然不够性感。
　　说到这里，我们对语义相关性的增强就可以利用在往期标签生成的文章中提到的方法
　　《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
　　
　　利用大量Query的点击数据，挖掘出该场景下的各种concept词。进一步，我们将concept词与医学知识图谱形成关联，从而替代了前面提到的Query聚类方案。
　　简单实践
　　挖掘出高质量的Concept词后，由上文提到的关联模型就可以获得不错的效果：
　　
　　当遇到多个实体，使用关联打分即可：
　　
　　总结
　　总的来说，Query扩展本身并不算一个复杂的工作，想要最终效果做得好，我们的建议是：把复杂的工作向后撤。生成模型或者强化模型看起来很fancy，操作门槛以及工程上的支持难度都较大。踏踏实实做好数据结构化（知识图谱构建、知识表示学习、长文本标签化等等），在下游应用里，用简单模型就能看到效果。有了baseline之后，我们会考虑用复杂的方案把关联性构建得更好。
　　参考文献
　　[1]. Probabilistic query expansion using query logs
　　[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
　　[3]. Concept-Based Interactive Query Expansion
　　[4]. Query Expansion Techniques for Information Retrieval- a Survey
　　[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
　　[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
　　[7]. Translating Queries into Snippets for Improved Query Expansion
　　[8]. Query expansion using local and global document analysis
　　[9]. Towards concept-based translation models using search logs for query expansion
　　[10]. Extracting Semantic Relations from Query Logs
　　[11]. Context-aware query suggestion by mining click-through and session data
　　[12]. Query Recommendation using Query Logs in Search Engines
　　[13]. Learning to Rewrite Queries
　　[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
　　[15].
　　招聘信息
　　丁香园大数据NLP团队招聘各类算法人才，Base杭州。NLP团队的使命是利用NLP（自然语言处理）、Knowledge Graph（知识图谱）、Deep Learning（深度学习）等技术，处理丁香园海量医学文本数据，打通电商、在线问诊、健康知识、社区讨论等各个场景数据，构建医学知识图谱，搭建通用NLP服务。团队关注NLP前沿技术，也注重落地实现，包括但不仅限于知识图谱、短文本理解、语义搜索、可解释推荐、智能问答等。加入我们，让健康更多，让生活更好！
　　欢迎各位朋友推荐或自荐至查看全部

　　对原始Query首先需要做若干预处理，包括必要的纠错、补全，从Query中筛选出需要进行扩展的主题词或实体词，对最终的目标词完成扩展。这里我们着重关注Expansion Terms部分。
　　从哪里扩展
　　首先考虑扩展词从哪里来，这点上的思路和大部分语义相关的NLP任务类似，想法其实很直白，要不从用户习惯、行为中来，要不从描述事物本身语义中来：
　　一、业务场景语境
　　从用户的搜索log中可以挖掘出大量搜索词的固定搭配
　　

　　这些词首先保证了与原始Query较高的匹配度（都包含“知识”这个词），在业务上也满足大多数用户关注的话题。缺点是这一类扩展词仅来自于统计学层面，与语义无关，无法满足语义层面上的相关性。
　　二、文档语料
　　除了来自用户的搜索Query，文档库也是扩展词的重要来源。丰富的语境能够提供词之间的相互关系
　　

　　这类扩展词的缺点也比较明显，它与原始Query存在文本上的差异较大，增加召回的同时，可能会牺牲一定的匹配度。
　　三、构建领域知识库
　　最后一个途径是构建特定的领域知识库，优点是对语义相关度可以做更精准的控制，但是构建成本较高，同时如何将知识信息融入到原统计机器学习的算法中也有不小难度。
　　当然，理想的形态必然是混合以上三种来源，取其优点，可以观察谷歌的相关搜索：
　　

　　融合了字面、语义、知识多方面的相关性。
　　扩展模型思路
　　到模型部分，主要处理的就是原始Query中的term与待扩展的term/phrase如何产生关联。目前主流方案为两大类，一类是以贝叶斯模型为核心，统计扩展term与Query之间的条件概率。另一类的思路是把问题抽象成一个翻译模型，将Query中的词从scr到target语言完成改写。
　　一、相关模型
　　这种方案其实特别直白，Query词与扩展词在语料中共现值越大，说明它们相关性越高。也很容易想到使用TF-IDF一类的方式去做。经典的文献可以看这篇早在02年发表的工作：
　　《Probabilistic Query Expansion Using Query Logs》
　　作者提出需要做Query扩展的原因是认为用户输入的Query词与实际文档集中的词存在差异，所以在传统BM25算法搜索的过程中很有可能无法命中。下图是作者做的验证工作，将文档和Query都使用词袋向量表示，向量中元素值为TF-IDF，可以看到峰值区间对应的相似度并不高。
　　需要构建这种联系很自然的方式就是利用用户行为日志数据，用贝叶斯模型构建概率分布：
　　

　　最终公式可以表示为：
　　

　　式子右侧括号中分别融合了扩展词在文档集中的先验概率、Query词与文档在交互session中的共现频数以及Query词在交互session中的频数。
　　虽然这篇文章过去了将近20年，但是后续的利用相关模型的算法都逃不出这个套路，方法简单却有效，在刚着手做该任务时不妨可以选它作为baseline。
　　往后大家对于这个套路的Query扩展优化，多关注于提高扩展词的质量。一个很自然的逻辑就是可以用term作为扩展词，同样地，phrase或concept短语也可以。
　　《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
　　比如类似这篇文章中，因为Query中出现的term与它们对应的主题是多对多的，作者通过Query聚类挖掘出潜在的几种意图concept词，结合考虑Query Session的问题再进行后续扩展。
　　

　　二、翻译模型
　　除了挖掘出扩展词的方案，另一个方向是对Query词进行直接改写。仍然从最简单的开始，各种复杂模型的起点其实都源自符合人类直觉的简单假设。
　　《The Mathematics of Statistical Machine Translation: Parameter Estimation》
　　这是篇年代更加久远的文章，发表于1993年，它就是著名的IBM算法。本身与Query扩展无关，主要工作是做机器翻译，但是它阐述了翻译模型最原始的假设：
　　

　　完成翻译，我们要完成的无非是两件事：1）给定一个待翻译的句子，返回目标语言表达这个句子各个词意思的词；2）将原始语言的词与目标语言的词一一对应（alignment）。
　　而IBM算法的核心就是把这个问题抽象成“对齐”分布式是一个隐变量的概率问题：
　　

　　利用EM算法完成求解即可。
　　《Towards concept-based translation models using search logs for query expansion》
　　做Query扩展时，这一思想也被迁移过来：
　　

　　连公式的形式都与原IBM算法是一致的，式子中theta就是改写操作中原始词与目标词的对齐概率参数。文章中，作者也进一步实验了phrase和concept词的结果。同时，配合 term weighting 一起食用，效果更好喔！
　　《Learning to Rewrite Queries》
　　再后续，大家会考虑进一步优化alignment分布的学习以及融入更多的语义特征进去，毕竟IBM算法仅从统计词频的角度估算分布还是太过单薄。近年来深度学习的发展自然就带动一些传统模型向神经网络向的方法上迁移：
　　

　　《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
　　谷歌在 2018 ICLR 上发表的工作合并了使用序列模型完成Query改写，考虑使用强化学习来进一步增强
　　

　　这个方案的大致思路是，模型与索引系统连接，若改写后的Query可以索引出排序更靠前的内容，则给予强化模型正向的激励。而且，train好的强化模型也可以倒过来finetune改写模型。
　　增强语义相关性
　　可以看到，计算原始Query到扩展词或改写词的关联已经有非常多成熟的方法，甚至可以在自己场景里设计比较tricky的强化模型方案。而我们认为进一步提高效果的关键，还是需要主动对业务内容的组织、理解、良好的结构化。目前火热的各种文本预训练模型、知识图谱等都印证了这一点。常常看到有人看衰知识图谱发展，不可否认因为它没有一个大而独立的场景，所以它必然无法像CV那样大放光芒。但是我们一直认为知识图谱的技术目前最合理的使用方案是浸润在日常的各个技术中，它是帮助老技术突破瓶颈的途径，没有新东西，听起来当然不够性感。
　　说到这里，我们对语义相关性的增强就可以利用在往期标签生成的文章中提到的方法
　　《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
　　

　　利用大量Query的点击数据，挖掘出该场景下的各种concept词。进一步，我们将concept词与医学知识图谱形成关联，从而替代了前面提到的Query聚类方案。
　　简单实践
　　挖掘出高质量的Concept词后，由上文提到的关联模型就可以获得不错的效果：
　　

　　当遇到多个实体，使用关联打分即可：
　　

　　总结
　　总的来说，Query扩展本身并不算一个复杂的工作，想要最终效果做得好，我们的建议是：把复杂的工作向后撤。生成模型或者强化模型看起来很fancy，操作门槛以及工程上的支持难度都较大。踏踏实实做好数据结构化（知识图谱构建、知识表示学习、长文本标签化等等），在下游应用里，用简单模型就能看到效果。有了baseline之后，我们会考虑用复杂的方案把关联性构建得更好。
　　参考文献
　　[1]. Probabilistic query expansion using query logs
　　[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
　　[3]. Concept-Based Interactive Query Expansion
　　[4]. Query Expansion Techniques for Information Retrieval- a Survey
　　[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
　　[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
　　[7]. Translating Queries into Snippets for Improved Query Expansion
　　[8]. Query expansion using local and global document analysis
　　[9]. Towards concept-based translation models using search logs for query expansion
　　[10]. Extracting Semantic Relations from Query Logs
　　[11]. Context-aware query suggestion by mining click-through and session data
　　[12]. Query Recommendation using Query Logs in Search Engines
　　[13]. Learning to Rewrite Queries
　　[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
　　[15].
　　招聘信息
　　丁香园大数据NLP团队招聘各类算法人才，Base杭州。NLP团队的使命是利用NLP（自然语言处理）、Knowledge Graph（知识图谱）、Deep Learning（深度学习）等技术，处理丁香园海量医学文本数据，打通电商、在线问诊、健康知识、社区讨论等各个场景数据，构建医学知识图谱，搭建通用NLP服务。团队关注NLP前沿技术，也注重落地实现，包括但不仅限于知识图谱、短文本理解、语义搜索、可解释推荐、智能问答等。加入我们，让健康更多，让生活更好！
　　欢迎各位朋友推荐或自荐至

想让推荐和搜索引擎更聪明？基于知识图谱的篇章标签生成

网站优化 • 优采云发表了文章 • 0 个评论 • 278 次浏览 • 2022-06-19 13:52 • 来自相关话题

　　想让推荐和搜索引擎更聪明？基于知识图谱的篇章标签生成
　　
　　老板～我们的推荐系统笨笨的
　　
　　你怎么对文档处理的这么糙！抽个关键词就应付过去了？
　　
　　
　　
　　啊啊啊我错惹，那那，不用关键词用什么呢？
　　
　　知识图谱用上了没？
　　概念词知道不？9012年了知道么！
　　
　　
　　
　　嘤嘤嘤，马上升级！o(╥﹏╥)o
　　
　　前言
　　篇章的标签生成是NLP领域的一项基础任务，目的是对文本更好地结构化，筛选重要的关键词，概括文本的中心语义。因此，我们探索了一套标签生成流程，其中除了应用了已有的信息抽取技术之外，还将医疗知识图谱结构，实体显著性判断，concept抽取融入模型，实现业务增长。
　　关于标签生成，优化的方法大致有两种思路，第一种是在拥有一个较为完备的知识图谱后，如何使用知识图谱去指导标签抽取过程保持语义上的一致。举个栗子，比如通过词分布的分析，某篇文章的主题被定为在“妇科”相关疾病上，那么“骨科”的实体词就会被避免作为标签被抽出。这种思路在业界多以LDA的无监督打标签算法为主，利用知识表示向量、知识图谱结构或者其他统计信息对LDA模型进行改进，输出的结果为原文出现过的实体词，以下我们将它称之为主题语义连贯的词分布标签方法；
　　另一种思路是在知识图谱上做文章，比如专业的医学知识图谱上的实体词够精确，但有时由于词本身的含义不够泛化，并不适用于文章的表示，举个栗子，比如“HP”、“胃镜”、“三联疗法”这几个词的确贴合消化内科的主题，但是它没有“幽门螺杆菌的治疗方法”这样更加泛化的标签词来的直观，后者包含了更多的信息量，且更具可解释性。这方向需要结合更多的NLP技术，包括在业务场景中挖掘优质的concept短语，构建concept短语与实体词的taxonomy，利用文本子图中心度测量、随机游走路径、词频共现等做encoding，以LDA作为抽取器完成标签工作，以下我们将它为Concept挖掘的标签方法。
　　对这两种思路，我们调研了已有的相关研究，利用医疗知识图谱和医学垂直领域业务数据做了标签生成的尝试。
　　主题语义连贯的词分布主题模型
　　《Incorporating Knowledge Graph Embeddings into Topic Modeling》
　　概率主题模型可用于从文档集合中提取低维主题。然而，以往的模型往往产生无法解释的主题。近年来，已有许多基于知识的主题模型被提出，但它们不能很好的处理知识图中的三元组，大部分以must-link形式，或直接利用图谱中的上层概念，无法在向量空间中量化。本文将知识表示嵌入到到LDA中，将潜在的Dirichlet分配（一种广泛使用的主题模型）与实体向量编码的知识相结合，来提高了主题语义的一致性和连贯性。本文主要在两个以往研究（CI-LDA和Corr-LDA）上做了改进，上图为linkKGLDA，下图为corrKGLDA：
　　
　　两个模型的不同之处在于，前者为条件独立，后者为条件相关。具体的改进如下：
　　
　　
　　由于一些知识表示（TransE）是unit sphere，因此使用von Mises Fisher（VMF）分布对其进行建模。vmf分布被广泛用于模拟此类定向数据。此外，使用vmf分布代替多元高斯分布，可以更有效地进行推断。与传统LDA模型相比，增加一组参数：(μk, κk) ，主题k的vMF分布；以及edm，即文档中实体的知识表示向量。
　　实现Concept挖掘的标签方法
　　目前的大多数concept标签方案，多是基于一定的统计数据，如：词对共现频数，词对覆盖率等。这些方法依赖业务场景下的query log，或者也可利用知识图谱结构进行层次聚类，中心化，路径预测等方式进行。下面将一一介绍相关研究。《Graph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了图稀疏LDA，这是一种分层主题模型，它使用单词之间关系的知识（例如：本体编码）。在模型中，主题被一些潜在的概念词概括，这些潜在概念词来自观察词在本体中的图。GS-LDA在标准LDA模型中引入了一个额外的层次结构层：主题不是分布在观察到的词上，而是分布在概念词上，然后通过由词汇结构通知的噪声过程生成观察到的词。
　　
　　例如上图所示，“癫痫”是一个很好的概念词，可以概括出子类癫痫。如果患者患有癫痫也可以解释“中枢神经系统紊乱”甚至“疾病”。利用词典用的词或者实体总结文本时，通常都非常具体，而使用概念词总结一段文本，不仅可以说明具体的语义，同时能挖掘到更上层或者相似主题的语义。例如：”抗病毒药物”和”抗逆转录病毒”，一个词和它的邻居词，可以被认为产生自一个核心概念。Graph-Sparse LDA模型假设一个主题有一组稀疏的概念词组成，或是后代，或是祖先。最后定义如下过程：
　　
　　推导了一个B、B-、A、A-和P（以及添加和删除主题）的 blocked-Gibbs sampler。然而，单是吉布斯抽样并不能使主题概念词矩阵中的稀疏性足够快。混合速度很慢，因为阻塞的吉布斯取样器设置Akw~=0的唯一时间是没有w~计数分配给任何文档中的主题K时。当有海量文档时，不太可能达到零计数，采样器稀疏主题概念词矩阵A的速度会很慢。因此本文引入了一个MH procedure，通过在A和P上的 joint moves，鼓励主题概念词矩阵A向更大稀疏的方向移动。分布如下：
　　
　　首先，对A’进行智能分割合并移动。其次，试图通过提出一个P’来保持似然函数尽可能恒定：AP=A’P’。这样，先验p(A)和p(P)将对移动产生很大的影响。《Grounding Topic Models with Knowledge Bases》这篇工作认为尽管最近的研究试图利用各种知识源来改进主题建模，但它们要么承担着仅将主题表示为单词或短语分布，要么通过将主题与预先定义的知识库（知识库）实体进行一对一的绑定，建立主题模型，牺牲了主题建模的灵活性。因此提出了一种基于taxnomy层次结构随机游走特征的LDA，目的在于将taxnomy的语义和结构化特征全部考虑进来。
　　
　　
　　与以往LDA不同的是，模型中加入了四个新的变量，其中rdj代表随机游走路径，edj代表taxonomy中的概念，mdj代表文档中的实体，ydl为单词index。从根节点顶层概念词c0开始，通过随机游走筛选子节点。过程结束直到到达叶子节点。因此这个随机游走给每一个entity（概念）分配了一个从根到叶子的路径。基于主题k，可以计算到达每个实体的随机行走的概率，从而获得主题k下实体的分布。同样，对于每个类别节点c，可以计算一个概率kc，表示c被包含在随机行走路径中的可能性。除了随机游走得到的结构特征，本文同样利用了维基百科的page数据，得到实体，单词，概念之间的共现频数，作为先验信息。大文本语料库和知识库的推理是复杂的，为了保证实践中的效率，文章提出需要注意以下几个方面：（a）所有实体的路径总数可能非常大，使得随机游走公式的计算非常庞大。因此，本文使用命名实体字典为每个文档选择候选实体，在采样时只考虑这些实体的路径。实验表明，该近似方法对建模性能的影响可以忽略不计，同时大大降低了采样的复杂度，使推理成为现实。（b）通过修剪低级的具体类别节点（其最短的根到节点路径长度超过阈值），进一步减少层次深度。作者发现这样一个“粗糙”的实体本体足以满足需求。（c）为了计算路径的概率，使用动态规划来避免冗余计算。（d）初始化实体和路径分配以确保良好的起点。《Modeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中，或是只用文档中的词来描述主题，或是在taxnomy中找到合适的concept描述主题，本文虽然只是在传统LDA模型上做了很小的改动，但是它可以实现文档词分布和taxnomy concept共存的主题表达形式。将文档中的所有单词（不仅仅是实体）映射到一组本体概念上，学习单词和概念的概率模型，并且使用完全无监督的方法，而无需任何监督标记。
　　
　　将把这种模型称为概念模型。在概念模型中，属于概念的词由人类先验地（例如，作为本体的一部分）定义，并且仅限于（通常）总体词汇的一小部分。相反，在主题模型中，词汇表中的所有单词都可以与任何特定主题关联，但具有不同的概率。在上面的公式中，概念模型的未知参数是单词概念概率p（wi|cj）和概念文档概率p（cj|d）。作者的目标（在主题模型中）是从适当的语料库中估计这些。例如，注意概率p（cj|d）可以解决前面提到的标记问题，因为每个这样的分布都告诉我们文档d表示的概念cj的混合。使用吉布斯抽样将概念分配给文档中的单词，使用与在主题模型相同的抽样方程，但是有一个额外的约束，即一个单词只能分配给它在本体中关联的概念。除了约束外，学习算法与主题模型的标准学习完全相同，最终的结果是语料库中的每个词都被赋予了本体中的一个概念。反过来，这些分配可以直接估计上面等式中的某些项。为了估计特定概念cj的p（wi|cj），我们通过抽样算法判断语料库中有多少单词可以分配给概念cj，并将这些计数标准化，以得到概率分布p（wi|cj）。为了估计特定文档d的p（cj|d），计算每个概念分配给文档d中单词的次数，然后再次规范化和平滑计算以获得p（cj|d）。下表显示了一组单词的学习概率（按概率排序）的例子。
　　
　　《Unsupervised Graph-based Topic Labelling using DBpedia》这是一个完全将LDA作为抽取功能组件的模型，topic labeling过程完全基于聚类和图的中心化操作。
　　
　　
　　可以看到，每个实体的语义图只能表示一种非常宽泛的概念，并不能体现各个实体概念之间的关系，直接作为标签会使每个概念都孤立起来，文本的语义不仅不一致，还会非常离散。相反本文方法是建立一个由多个实体子图构成的主题图，从中可以分析大图中每个节点对主题图的语义中心度贡献（因此模型的假设前提是：在图中起重要作用的节点也与种子概念有重要的语义关系）。最终从这些语义中心度贡献高的节点中选择标签。本文应用了几种语义中心性措施：Focused Closeness Centrality，Focused Information Centrality，Focused Betweenness Centrality，来计算候选标签的语义中心度。《On Conceptual Labeling of a Bag of Words》本文利用了probase来进行concept tagging，与上述的研究不同，他没有用到任何主题模型，主要的方法是用信息论的方法来权衡对词袋的语义覆盖度，输出覆盖最广但标签最少的单词。
　　
　　使用MDL（最小长度描述原则）作为选择最好concept的标准，通过最大限度减少描述长度来实现当前概念集C的更新。迭代终止时，描述长度不能再减少了。由于编码长度在每次迭代时单调递减，因此保证了该算法收敛。虽然没有用到任何主题模型，但算法仍然可以通过三种操作（增删改）和MDL收敛的方式，自动的决定主题个数。前提是需要有海量的上下级概念对频数。
　　实际工作中的尝试
　　在实际工作的尝试中，我们的整体算法流程分为两部分：核心主题关键词抽取以及获取更为抽象的concept短语。符合一定主题的关键词抽取：在原有的linkKGLDA模型基础上，除了采用知识表示，还对图谱之外的词赋予deepwalk向量，是模型更好的应对图谱之外的词。更为抽象的concept短语：首先构建基于帖子的知识图谱，除了利用业务词典，丁香园论坛结构，搭建图谱上层，中下层图谱通过层次主题模型，concept，关键词抽取进行搭建。通过的concept抽取模型（可参考：医疗健康领域的短文本解析探索），我们从query和帖子标题中抽取到了300万的concept词语，那么如何才能找到一个帖子真正说的主题，并将文本中的最关键主题词连接到相应的concept上呢，这里我们要借助以下论文中提到的方法：《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的实体多种多样，但一般会存在几个最关键的实体，例如：
　　
　　文中出现了腹泻，绿便，奶等一系列表述疾病过程和食物相关的实体（可通过linkKGLDA识别出来），但中心实体”腹泻”和”乳糖酶乳粉”在识别结果中的排序可能并不是top1，这会使得后续的concept对应工作产生一定的噪音。
　　
　　本文主要研究实体对文章的显著程度，通过结合文章上下文和实体知识表示（KEE），和Kernel Interaction Model (KIM) 模型，对实体-文章对进行排序，从而得到实体在文章中的显著程度。实验数据利用的是远监督标注，利用文章和文章标题，以及已有算法（ner，名词短语抽取，实体链接，linkKGLDA概率等）得到训练数据。《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有两种，实现的前提条件是需要有足够数量和高质量的query log，以及知识图谱。整个过程分为两种方法：基于概率和基于匹配：
　　基于条件概率：
　　文章3.1节描述了如何利用抽取到的主题关键词去对应到一组合适的concept，主要利用的还是主题关键词上下文与concept的条件概率推理。与《Grounding Topic Models with Knowledge Bases》不同，这种方法可以得到图谱中不存在，但是搜索中经常出现的concept，并且也不需要大量上下位词的共现频数。
　　
　　
　　
　　
　　整个p（c|d）的计算过程重点在于第三步，即想要计算p(c|x)，必须存在以上下文xj作为子串的概念词（这样的概念词来自于query log），如：文中提到的概念词”省油的汽车”和文档中”丰田RAV4”的上下文”省油，耐用”。虽然这样的概念词在医疗专业词汇和搜索中很少见，但这实际上是实体属性和概念属性的一种交集，在没有足够数量和高质量的query log的情况下，我们可以采用属性抽取相关工作的研究结果。这样做更有利于做医疗领域的相关问题，当然也可参照之前的历史文章（taxnomy构建）和上面介绍的《On Conceptual Labeling of a Bag of Words》计算概率值。
　　基于匹配：
　　1.首先利用GBRank，textRank，word2vec算法，得到一定数量的关键词（instance）2.利用检索或者web table找到与instance相关的概念候选。每一个concept，用topN搜索结果标题文本信息来丰富concept表示（tf-idf向量）。4.将concept表示与文档title tf-idf向量做相似度计算，超过一定阈值，打相应标签。
　　实验对比
　　在丁香园论坛帖子的文本数据上，我们应用了前文调研的主题抽取、实体显著性判断、短语挖掘、concept召回等方法，所获得的标签在主题贴近度和可解释性上都有显著提高：
　　
　　总结
　　标签生成任务虽然在NLP领域非常常见，但是想要获得高质量的标签词，在推荐、搜索、问答等工业场景下应用，背后其实集成了众多NLP基础工作。标签生成的上游包含了分词、命名实体识别、医学概念归一化、消岐、concept质量优化等工作。只有稳固的基础才能把楼盖得更高。其次，知识图谱就是模型。合理的图谱结构、丰富的数据量将决定最终结果的好坏。在产业界尤其需要关注实际业务下的知识体系构建，一套知识图谱并不一定能满足所有的业务线，比如在医学科普文章下表现良好的图谱，若应用在考研、招聘类的文本下，反而会因为抽出过多的医学专业词汇而偏离主题。可以与业务部门协同补全知识图谱，或者用一些统计学方法加以补充。最后，标签词并不需要一定作为文本的一种“显式”的展示方式，作为长文本的一种更优的结构化数据，它有各种各样的“隐式”用法，比如作为特征输入到下游的文本分类、标题生成甚至融入到推荐系统策略中，我们会在今后陆续分享各种有趣的玩儿法。
　　可
　　能
　　喜
　　欢
　　求关注求投喂拉你进高端群哦~
　　
　　
　　参
　　考
　　文
　　献查看全部

　　想让推荐和搜索引擎更聪明？基于知识图谱的篇章标签生成
　　

　　老板～我们的推荐系统笨笨的
　　

　　你怎么对文档处理的这么糙！抽个关键词就应付过去了？
　　

　　啊啊啊我错惹，那那，不用关键词用什么呢？
　　

　　知识图谱用上了没？
　　概念词知道不？9012年了知道么！
　　

　　嘤嘤嘤，马上升级！o(╥﹏╥)o
　　

　　前言
　　篇章的标签生成是NLP领域的一项基础任务，目的是对文本更好地结构化，筛选重要的关键词，概括文本的中心语义。因此，我们探索了一套标签生成流程，其中除了应用了已有的信息抽取技术之外，还将医疗知识图谱结构，实体显著性判断，concept抽取融入模型，实现业务增长。
　　关于标签生成，优化的方法大致有两种思路，第一种是在拥有一个较为完备的知识图谱后，如何使用知识图谱去指导标签抽取过程保持语义上的一致。举个栗子，比如通过词分布的分析，某篇文章的主题被定为在“妇科”相关疾病上，那么“骨科”的实体词就会被避免作为标签被抽出。这种思路在业界多以LDA的无监督打标签算法为主，利用知识表示向量、知识图谱结构或者其他统计信息对LDA模型进行改进，输出的结果为原文出现过的实体词，以下我们将它称之为主题语义连贯的词分布标签方法；
　　另一种思路是在知识图谱上做文章，比如专业的医学知识图谱上的实体词够精确，但有时由于词本身的含义不够泛化，并不适用于文章的表示，举个栗子，比如“HP”、“胃镜”、“三联疗法”这几个词的确贴合消化内科的主题，但是它没有“幽门螺杆菌的治疗方法”这样更加泛化的标签词来的直观，后者包含了更多的信息量，且更具可解释性。这方向需要结合更多的NLP技术，包括在业务场景中挖掘优质的concept短语，构建concept短语与实体词的taxonomy，利用文本子图中心度测量、随机游走路径、词频共现等做encoding，以LDA作为抽取器完成标签工作，以下我们将它为Concept挖掘的标签方法。
　　对这两种思路，我们调研了已有的相关研究，利用医疗知识图谱和医学垂直领域业务数据做了标签生成的尝试。
　　主题语义连贯的词分布主题模型
　　《Incorporating Knowledge Graph Embeddings into Topic Modeling》
　　概率主题模型可用于从文档集合中提取低维主题。然而，以往的模型往往产生无法解释的主题。近年来，已有许多基于知识的主题模型被提出，但它们不能很好的处理知识图中的三元组，大部分以must-link形式，或直接利用图谱中的上层概念，无法在向量空间中量化。本文将知识表示嵌入到到LDA中，将潜在的Dirichlet分配（一种广泛使用的主题模型）与实体向量编码的知识相结合，来提高了主题语义的一致性和连贯性。本文主要在两个以往研究（CI-LDA和Corr-LDA）上做了改进，上图为linkKGLDA，下图为corrKGLDA：
　　

　　两个模型的不同之处在于，前者为条件独立，后者为条件相关。具体的改进如下：
　　

　　由于一些知识表示（TransE）是unit sphere，因此使用von Mises Fisher（VMF）分布对其进行建模。vmf分布被广泛用于模拟此类定向数据。此外，使用vmf分布代替多元高斯分布，可以更有效地进行推断。与传统LDA模型相比，增加一组参数：(μk, κk) ，主题k的vMF分布；以及edm，即文档中实体的知识表示向量。
　　实现Concept挖掘的标签方法
　　目前的大多数concept标签方案，多是基于一定的统计数据，如：词对共现频数，词对覆盖率等。这些方法依赖业务场景下的query log，或者也可利用知识图谱结构进行层次聚类，中心化，路径预测等方式进行。下面将一一介绍相关研究。《Graph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了图稀疏LDA，这是一种分层主题模型，它使用单词之间关系的知识（例如：本体编码）。在模型中，主题被一些潜在的概念词概括，这些潜在概念词来自观察词在本体中的图。GS-LDA在标准LDA模型中引入了一个额外的层次结构层：主题不是分布在观察到的词上，而是分布在概念词上，然后通过由词汇结构通知的噪声过程生成观察到的词。
　　

　　例如上图所示，“癫痫”是一个很好的概念词，可以概括出子类癫痫。如果患者患有癫痫也可以解释“中枢神经系统紊乱”甚至“疾病”。利用词典用的词或者实体总结文本时，通常都非常具体，而使用概念词总结一段文本，不仅可以说明具体的语义，同时能挖掘到更上层或者相似主题的语义。例如：”抗病毒药物”和”抗逆转录病毒”，一个词和它的邻居词，可以被认为产生自一个核心概念。Graph-Sparse LDA模型假设一个主题有一组稀疏的概念词组成，或是后代，或是祖先。最后定义如下过程：
　　

　　推导了一个B、B-、A、A-和P（以及添加和删除主题）的 blocked-Gibbs sampler。然而，单是吉布斯抽样并不能使主题概念词矩阵中的稀疏性足够快。混合速度很慢，因为阻塞的吉布斯取样器设置Akw~=0的唯一时间是没有w~计数分配给任何文档中的主题K时。当有海量文档时，不太可能达到零计数，采样器稀疏主题概念词矩阵A的速度会很慢。因此本文引入了一个MH procedure，通过在A和P上的 joint moves，鼓励主题概念词矩阵A向更大稀疏的方向移动。分布如下：
　　

　　首先，对A’进行智能分割合并移动。其次，试图通过提出一个P’来保持似然函数尽可能恒定：AP=A’P’。这样，先验p(A)和p(P)将对移动产生很大的影响。《Grounding Topic Models with Knowledge Bases》这篇工作认为尽管最近的研究试图利用各种知识源来改进主题建模，但它们要么承担着仅将主题表示为单词或短语分布，要么通过将主题与预先定义的知识库（知识库）实体进行一对一的绑定，建立主题模型，牺牲了主题建模的灵活性。因此提出了一种基于taxnomy层次结构随机游走特征的LDA，目的在于将taxnomy的语义和结构化特征全部考虑进来。
　　

　　与以往LDA不同的是，模型中加入了四个新的变量，其中rdj代表随机游走路径，edj代表taxonomy中的概念，mdj代表文档中的实体，ydl为单词index。从根节点顶层概念词c0开始，通过随机游走筛选子节点。过程结束直到到达叶子节点。因此这个随机游走给每一个entity（概念）分配了一个从根到叶子的路径。基于主题k，可以计算到达每个实体的随机行走的概率，从而获得主题k下实体的分布。同样，对于每个类别节点c，可以计算一个概率kc，表示c被包含在随机行走路径中的可能性。除了随机游走得到的结构特征，本文同样利用了维基百科的page数据，得到实体，单词，概念之间的共现频数，作为先验信息。大文本语料库和知识库的推理是复杂的，为了保证实践中的效率，文章提出需要注意以下几个方面：（a）所有实体的路径总数可能非常大，使得随机游走公式的计算非常庞大。因此，本文使用命名实体字典为每个文档选择候选实体，在采样时只考虑这些实体的路径。实验表明，该近似方法对建模性能的影响可以忽略不计，同时大大降低了采样的复杂度，使推理成为现实。（b）通过修剪低级的具体类别节点（其最短的根到节点路径长度超过阈值），进一步减少层次深度。作者发现这样一个“粗糙”的实体本体足以满足需求。（c）为了计算路径的概率，使用动态规划来避免冗余计算。（d）初始化实体和路径分配以确保良好的起点。《Modeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中，或是只用文档中的词来描述主题，或是在taxnomy中找到合适的concept描述主题，本文虽然只是在传统LDA模型上做了很小的改动，但是它可以实现文档词分布和taxnomy concept共存的主题表达形式。将文档中的所有单词（不仅仅是实体）映射到一组本体概念上，学习单词和概念的概率模型，并且使用完全无监督的方法，而无需任何监督标记。
　　

　　将把这种模型称为概念模型。在概念模型中，属于概念的词由人类先验地（例如，作为本体的一部分）定义，并且仅限于（通常）总体词汇的一小部分。相反，在主题模型中，词汇表中的所有单词都可以与任何特定主题关联，但具有不同的概率。在上面的公式中，概念模型的未知参数是单词概念概率p（wi|cj）和概念文档概率p（cj|d）。作者的目标（在主题模型中）是从适当的语料库中估计这些。例如，注意概率p（cj|d）可以解决前面提到的标记问题，因为每个这样的分布都告诉我们文档d表示的概念cj的混合。使用吉布斯抽样将概念分配给文档中的单词，使用与在主题模型相同的抽样方程，但是有一个额外的约束，即一个单词只能分配给它在本体中关联的概念。除了约束外，学习算法与主题模型的标准学习完全相同，最终的结果是语料库中的每个词都被赋予了本体中的一个概念。反过来，这些分配可以直接估计上面等式中的某些项。为了估计特定概念cj的p（wi|cj），我们通过抽样算法判断语料库中有多少单词可以分配给概念cj，并将这些计数标准化，以得到概率分布p（wi|cj）。为了估计特定文档d的p（cj|d），计算每个概念分配给文档d中单词的次数，然后再次规范化和平滑计算以获得p（cj|d）。下表显示了一组单词的学习概率（按概率排序）的例子。
　　

　　《Unsupervised Graph-based Topic Labelling using DBpedia》这是一个完全将LDA作为抽取功能组件的模型，topic labeling过程完全基于聚类和图的中心化操作。
　　

　　可以看到，每个实体的语义图只能表示一种非常宽泛的概念，并不能体现各个实体概念之间的关系，直接作为标签会使每个概念都孤立起来，文本的语义不仅不一致，还会非常离散。相反本文方法是建立一个由多个实体子图构成的主题图，从中可以分析大图中每个节点对主题图的语义中心度贡献（因此模型的假设前提是：在图中起重要作用的节点也与种子概念有重要的语义关系）。最终从这些语义中心度贡献高的节点中选择标签。本文应用了几种语义中心性措施：Focused Closeness Centrality，Focused Information Centrality，Focused Betweenness Centrality，来计算候选标签的语义中心度。《On Conceptual Labeling of a Bag of Words》本文利用了probase来进行concept tagging，与上述的研究不同，他没有用到任何主题模型，主要的方法是用信息论的方法来权衡对词袋的语义覆盖度，输出覆盖最广但标签最少的单词。
　　

　　使用MDL（最小长度描述原则）作为选择最好concept的标准，通过最大限度减少描述长度来实现当前概念集C的更新。迭代终止时，描述长度不能再减少了。由于编码长度在每次迭代时单调递减，因此保证了该算法收敛。虽然没有用到任何主题模型，但算法仍然可以通过三种操作（增删改）和MDL收敛的方式，自动的决定主题个数。前提是需要有海量的上下级概念对频数。
　　实际工作中的尝试
　　在实际工作的尝试中，我们的整体算法流程分为两部分：核心主题关键词抽取以及获取更为抽象的concept短语。符合一定主题的关键词抽取：在原有的linkKGLDA模型基础上，除了采用知识表示，还对图谱之外的词赋予deepwalk向量，是模型更好的应对图谱之外的词。更为抽象的concept短语：首先构建基于帖子的知识图谱，除了利用业务词典，丁香园论坛结构，搭建图谱上层，中下层图谱通过层次主题模型，concept，关键词抽取进行搭建。通过的concept抽取模型（可参考：医疗健康领域的短文本解析探索），我们从query和帖子标题中抽取到了300万的concept词语，那么如何才能找到一个帖子真正说的主题，并将文本中的最关键主题词连接到相应的concept上呢，这里我们要借助以下论文中提到的方法：《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的实体多种多样，但一般会存在几个最关键的实体，例如：
　　

　　文中出现了腹泻，绿便，奶等一系列表述疾病过程和食物相关的实体（可通过linkKGLDA识别出来），但中心实体”腹泻”和”乳糖酶乳粉”在识别结果中的排序可能并不是top1，这会使得后续的concept对应工作产生一定的噪音。
　　

　　本文主要研究实体对文章的显著程度，通过结合文章上下文和实体知识表示（KEE），和Kernel Interaction Model (KIM) 模型，对实体-文章对进行排序，从而得到实体在文章中的显著程度。实验数据利用的是远监督标注，利用文章和文章标题，以及已有算法（ner，名词短语抽取，实体链接，linkKGLDA概率等）得到训练数据。《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有两种，实现的前提条件是需要有足够数量和高质量的query log，以及知识图谱。整个过程分为两种方法：基于概率和基于匹配：
　　基于条件概率：
　　文章3.1节描述了如何利用抽取到的主题关键词去对应到一组合适的concept，主要利用的还是主题关键词上下文与concept的条件概率推理。与《Grounding Topic Models with Knowledge Bases》不同，这种方法可以得到图谱中不存在，但是搜索中经常出现的concept，并且也不需要大量上下位词的共现频数。
　　

　　整个p（c|d）的计算过程重点在于第三步，即想要计算p(c|x)，必须存在以上下文xj作为子串的概念词（这样的概念词来自于query log），如：文中提到的概念词”省油的汽车”和文档中”丰田RAV4”的上下文”省油，耐用”。虽然这样的概念词在医疗专业词汇和搜索中很少见，但这实际上是实体属性和概念属性的一种交集，在没有足够数量和高质量的query log的情况下，我们可以采用属性抽取相关工作的研究结果。这样做更有利于做医疗领域的相关问题，当然也可参照之前的历史文章（taxnomy构建）和上面介绍的《On Conceptual Labeling of a Bag of Words》计算概率值。
　　基于匹配：
　　1.首先利用GBRank，textRank，word2vec算法，得到一定数量的关键词（instance）2.利用检索或者web table找到与instance相关的概念候选。每一个concept，用topN搜索结果标题文本信息来丰富concept表示（tf-idf向量）。4.将concept表示与文档title tf-idf向量做相似度计算，超过一定阈值，打相应标签。
　　实验对比
　　在丁香园论坛帖子的文本数据上，我们应用了前文调研的主题抽取、实体显著性判断、短语挖掘、concept召回等方法，所获得的标签在主题贴近度和可解释性上都有显著提高：
　　

　　总结
　　标签生成任务虽然在NLP领域非常常见，但是想要获得高质量的标签词，在推荐、搜索、问答等工业场景下应用，背后其实集成了众多NLP基础工作。标签生成的上游包含了分词、命名实体识别、医学概念归一化、消岐、concept质量优化等工作。只有稳固的基础才能把楼盖得更高。其次，知识图谱就是模型。合理的图谱结构、丰富的数据量将决定最终结果的好坏。在产业界尤其需要关注实际业务下的知识体系构建，一套知识图谱并不一定能满足所有的业务线，比如在医学科普文章下表现良好的图谱，若应用在考研、招聘类的文本下，反而会因为抽出过多的医学专业词汇而偏离主题。可以与业务部门协同补全知识图谱，或者用一些统计学方法加以补充。最后，标签词并不需要一定作为文本的一种“显式”的展示方式，作为长文本的一种更优的结构化数据，它有各种各样的“隐式”用法，比如作为特征输入到下游的文本分类、标题生成甚至融入到推荐系统策略中，我们会在今后陆续分享各种有趣的玩儿法。
　　可
　　能
　　喜
　　欢
　　求关注求投喂拉你进高端群哦~
　　

　　参
　　考
　　文
　　献

从0到1：构建强大且易用的规则引擎

网站优化 • 优采云发表了文章 • 0 个评论 • 95 次浏览 • 2022-06-18 20:24 • 来自相关话题

　　从0到1：构建强大且易用的规则引擎
　　2016 年 7 月恰逢美团点评的业务进入“下半场”，需要在各个环节优化体验、提升效率、降低成本。技术团队需要怎么做来适应这个变化？这个问题直接影响着之后的工作思路。
　　美团外卖的 CRM 业务步入成熟期，规则类需求几乎撑起了这个业务所有需求的半边天。
　　
　　一方面规则唯一不变的是“多变”，另一方面开发团队对“规则开发”的感受是乏味、疲惫和缺乏技术含量。如何解决规则开发的效率问题，最大化解放开发团队成为目前的一个 KPI。
　　规则引擎作为常见的维护策略规则的框架很快进入我的思路。它能将业务决策逻辑从系统逻辑中抽离出来，使两种逻辑可以独立于彼此而变化，这样可以明显降低两种逻辑的维护成本。
　　分析规则引擎如何设计正是本文的主题，过程中也简单介绍了实现方案。
　　美团规则引擎应用实践
　　首先回顾几个美团点评的业务场景，通过这些场景大家能更好地理解什么是规则，规则的边界是什么。
　　在每个场景后面都介绍了业务系统现在使用的解决方案以及主要的优缺点。
　　门店信息校验
　　场景
　　美团点评合并前的美团平台事业部中，门店信息入口作为门店信息的第一道关卡，有一个很重要的职责，就是质量控制，其中第一步就是针对一些字段的校验规则。
　　下面从流程的角度看下门店信息入口业务里校验门店信息的规则模型（已简化），如下图：
　　
　　规则主体包括三部分：
　　方案：硬编码
　　由于历史原因，门店信息校验采用了硬编码的方式，伪代码如下：
　　if (StringUtil.isBlank(fieldA)
　　|| StringUtil.isBlank(fieldB)
　　|| StringUtil.isBlank(fieldC)
　　|| StringUtil.isBlank(fieldD)) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店参数缺少必填项");
　　}if (fieldA.length() < 10) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店名称长度不能少于10个字符");
　　}
　　if (!isConsistent(fieldB, fieldC, fieldD)) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店xxx地址、行政区和经纬度不一致");
　　}
　　优点：
　　缺点：
　　门店审核流程
　　场景
　　流程控制中心（负责在运行时根据输入参数选择不同的流程节点从而构建一个流程实例）会根据输入门店信息中的渠道来源和品牌等特征确定本次审核（不）走哪些节点，其中选择策略的模型如下图：
　　
　　规则主体是分支条件：
　　方案：开源 Drools 从入门到放弃
　　经过一系列调研，团队选择基于开源规则引擎 Drools 来配置流程中审核节点的选择策略。使用 Drools 后的规则配置流程如下图：
　　
　　上图中 DSL 即是规则主体，规则内容如下：
　　rule "1.1"
　　when
　　poi : POI( source == 1 && brandType == 1 )
　　then
　　System.out.println( "1.1 matched" );
　　poi.setPassedNodes(1);
　　end
　　rule "1.2"
　　when
　　poi : POI( source == 1 && brandType == 2 )
　　then
　　System.out.println( "1.2 matched" );
　　end
　　rule "2.1"
　　when
　　poi : POI( source == 2 && brandType == 1 )
　　then
　　System.out.println( "2.1 matched" );
　　poi.setPassedNodes(2);
　　end
　　rule "2.2"
　　when
　　poi : POI( source == 2 && brandType == 2 )
　　then
　　System.out.println( "2.2 matched" );
　　poi.setPassedNodes(3);
　　end
　　在实践中，我们发现 Drools 方案有如下几个优缺点，由于 Drools 的问题较多，最后这个方案还是放弃了。
　　优点：
　　缺点：
　　绩效指标计算
　　场景
　　美团外卖业务发展非常迅速，绩效指标规则需要快速迭代才能紧跟业务发展步伐。绩效考核频率是一个月一次，因此绩效规则的迭代频率也是每月一次。因为绩效规则系统是硬编码实现，因此开发团队需要投入大量的人力满足规则更新需求。
　　2016 年 10 月底，我受绩效团队委托成立一个项目组，开发部署了一套绩效指标配置系统，系统上线直接减少了产品经理和技术团队 70% 的工作量。
　　下面我们首先分析下绩效指标计算的规则模型，如下图：
　　
　　规则主体是结构化数据处理逻辑：
　　方案：业务定制规则引擎
　　绩效规则主体是数据处理，但我们认为数据处理同样属于规则的范畴，因此我们将其放在本文进行分析。
　　下图是绩效指标配置系统，触发器负责定时驱动引擎进行计算；视图负责给商业分析师提供规则配置界面，规则表达能力取决于视图；引擎负责将配置的规则解析成 Spark 原语进行计算。
　　
　　优点：
　　缺点：
　　探索全新设计
　　“案例”一节中三种落地方案的问题总结如下：
　　由于“高效配置规则”是业务里长期存在的刚需，且行业内又缺乏符合需求的解决方案，2017 年 2 月我在团队内部设立了一个虚拟小组专门负责规则引擎的设计研发。
　　引擎设计指标是要覆盖工作中基础的规则迭代需求（包括但不限于“案例”一节中的多个场景），同时针对“案例”一节中已有解决方案扬长避短。
　　下面分三节来重现这个项目的设计过程：
　　需求模型
　　对规则引擎来说，世界皆规则。通过“案例”一节的分析，我们对规则以及规则引擎该如何构建的思路正逐渐变得清晰。
　　下面两节分别定义规则数据模型和规则引擎的系统模型，目标是对“Maze 框架”一节中的规则引擎产品进行框架性指导。
　　规则数据模型
　　规则本质是一个函数，由 n 个输入、1 个输出和函数计算逻辑 3 部分组成。
　　y = f（x1, x2, …, xn）
　　具体结合“案例”一节中的场景，我们梳理出的规则模型如下图所示：
　　
　　主要由三部分构成：
　　结果对象，规则处理完毕后的结果。需要支持自定义类型或者简单类型（Integer、Long、Float、Double、Short、String、Boolean 等）。
　　系统模型
　　我们需要设计一个系统能配置、加载、解释执行上节中的数据模型，另外设计时还需要规避“案例”一节 3 个方案的缺点。最终我们定义了如下图所示的系统模型。
　　
　　主要由三个模块构成：
　　资源管理器，负责管理规则。
　　最终结果 /** 变量模式 */
　　|
　　|
　　中间结果 > $参数3 /** 关系运算模式 */
　　|
　　|
　　$参数1 + $参数2 /** 算数运算模式 */
　　Maze 框架
　　基于"需求模型"一节的定义，我们开发了 Maze 框架（Maze 是迷宫的意思，寓意：迷宫一样复杂的规则）。
　　Maze 框架分两个引擎：
　　其中 MazeGO 内解析到结构化数据处理模式会调用 SQLC 驱动 MazeQL 完成计算，比如：从数据库里查询某个 BD 的月交易额，如果交易额超过 30 万则执行 A 逻辑否则执行 B 逻辑，这个语义的规则需要执行结构化查询。
　　MazeQL 内解析到策略计算模式会调用 VectorC 驱动 MazeGO 进行计算，比如：有一张订单表，其中第一列是商品 ID，第二列是商品购买数量，第三列是此商品的单价。
　　我们需要计算每类商品的总价则需要对结构化查询到的结果的每一行执行第二列*第三列这样的策略模式计算。
　　
　　名词解释：
　　SQLC 指结构化查询，拥有执行 SQL 的能力。
　　MazeGO
　　MazeGO 核心主要由三部分构成：
　　另外两个辅助模块是流量控制器和规则效果分析模块，基本构成如下图：
　　
　　三个核心模块（引擎、知识库和资源管理器）的职责见“需求模型”一节中“系统模型”一节。
　　下面只介绍下和“系统模型”不同的部分：
　　预编译规则实例，因为规则每次编译执行会导致性能问题，因此会在引擎初始化和规则有变更这两个时机将增量版本的规则预编译成可执行代码。规则管理模块。职责如下：
　　MazeQL
　　MazeQL 核心主要由三部分构成：
　　
　　QL 驱动器，驱动平台进行规则计算。因为任务的实际执行平台有多种（会在下一个“平台”部分介绍），因此 QL 驱动器也有多种实现。
　　预加载规则实例，首先为了避免访问规则时需要实时执行远程调用而造成较大的时延，另外规则并不是时刻发生变更没有必要每次访问时拉取一次最新版本。
　　基于以上两个原因规则管理模块会在引擎初始化阶段将有效版本的规则实例缓存在本地并且监听规则变更事件（监听可以基于 ZooKeeper 实现）。
　　预解析规则实例，因为规则每次解析执行会导致性能（大对象）问题，因此会在引擎初始化阶段解析为运行时可用的调度栈帧。
　　规则管理模块，职责如下，运行时模块。分为调度器和 QL 驱动器。
　　嵌入式模式下是基于 MySQL和 Derby 等实时性较好的数据库实现的。在 Spark 平台上是基于 Spark SQL 实现的。
　　QL 执行器，负责执行结构化查询逻辑。两种不同的运行模式下 QL 执行器在执行 SQL 模式时会选择两种不同的 QL 执行器实现，两种实现分别是：
　　Maze 框架能力模型
　　Maze 框架是一个适用于非技术背景人员，支持复杂规则的配置和计算引擎。
　　
　　规则迭代安全性
　　规则支持热部署，系统通过版本控制，可以灰度一部分流量，增加上线信心。
　　规则表达能力，框架的表达能力覆盖绝大部分代码表达能力。下面用伪代码的形式展示下 Maze 框架的规则部分具有的能力。
　　// 输入N个FACT对象
　　function(Fact[] facts) {
　　// 从FACT对象里提取模式
　　String xx= facts[0].xx;
　　// 从某个数据源获取特征数据，SQLC数据处理能力远超sql语言本身能力，SQLC具有编程+SQL的混合能力
　　List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
　　// 对特征数据和FACT对象应用用户自定义计算模式
　　UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
　　// 使用系统内置表达式模式处理特征
　　int compareResult = userDefinedObj.getFieldXX().compare(XX); 查看全部

　　从0到1：构建强大且易用的规则引擎
　　2016 年 7 月恰逢美团点评的业务进入“下半场”，需要在各个环节优化体验、提升效率、降低成本。技术团队需要怎么做来适应这个变化？这个问题直接影响着之后的工作思路。
　　美团外卖的 CRM 业务步入成熟期，规则类需求几乎撑起了这个业务所有需求的半边天。
　　

　　一方面规则唯一不变的是“多变”，另一方面开发团队对“规则开发”的感受是乏味、疲惫和缺乏技术含量。如何解决规则开发的效率问题，最大化解放开发团队成为目前的一个 KPI。
　　规则引擎作为常见的维护策略规则的框架很快进入我的思路。它能将业务决策逻辑从系统逻辑中抽离出来，使两种逻辑可以独立于彼此而变化，这样可以明显降低两种逻辑的维护成本。
　　分析规则引擎如何设计正是本文的主题，过程中也简单介绍了实现方案。
　　美团规则引擎应用实践
　　首先回顾几个美团点评的业务场景，通过这些场景大家能更好地理解什么是规则，规则的边界是什么。
　　在每个场景后面都介绍了业务系统现在使用的解决方案以及主要的优缺点。
　　门店信息校验
　　场景
　　美团点评合并前的美团平台事业部中，门店信息入口作为门店信息的第一道关卡，有一个很重要的职责，就是质量控制，其中第一步就是针对一些字段的校验规则。
　　下面从流程的角度看下门店信息入口业务里校验门店信息的规则模型（已简化），如下图：
　　

　　规则主体包括三部分：
　　方案：硬编码
　　由于历史原因，门店信息校验采用了硬编码的方式，伪代码如下：
　　if (StringUtil.isBlank(fieldA)
　　|| StringUtil.isBlank(fieldB)
　　|| StringUtil.isBlank(fieldC)
　　|| StringUtil.isBlank(fieldD)) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店参数缺少必填项");
　　}if (fieldA.length() < 10) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店名称长度不能少于10个字符");
　　}
　　if (!isConsistent(fieldB, fieldC, fieldD)) {
　　return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "门店xxx地址、行政区和经纬度不一致");
　　}
　　优点：
　　缺点：
　　门店审核流程
　　场景
　　流程控制中心（负责在运行时根据输入参数选择不同的流程节点从而构建一个流程实例）会根据输入门店信息中的渠道来源和品牌等特征确定本次审核（不）走哪些节点，其中选择策略的模型如下图：
　　

　　规则主体是分支条件：
　　方案：开源 Drools 从入门到放弃
　　经过一系列调研，团队选择基于开源规则引擎 Drools 来配置流程中审核节点的选择策略。使用 Drools 后的规则配置流程如下图：
　　

　　上图中 DSL 即是规则主体，规则内容如下：
　　rule "1.1"
　　when
　　poi : POI( source == 1 && brandType == 1 )
　　then
　　System.out.println( "1.1 matched" );
　　poi.setPassedNodes(1);
　　end
　　rule "1.2"
　　when
　　poi : POI( source == 1 && brandType == 2 )
　　then
　　System.out.println( "1.2 matched" );
　　end
　　rule "2.1"
　　when
　　poi : POI( source == 2 && brandType == 1 )
　　then
　　System.out.println( "2.1 matched" );
　　poi.setPassedNodes(2);
　　end
　　rule "2.2"
　　when
　　poi : POI( source == 2 && brandType == 2 )
　　then
　　System.out.println( "2.2 matched" );
　　poi.setPassedNodes(3);
　　end
　　在实践中，我们发现 Drools 方案有如下几个优缺点，由于 Drools 的问题较多，最后这个方案还是放弃了。
　　优点：
　　缺点：
　　绩效指标计算
　　场景
　　美团外卖业务发展非常迅速，绩效指标规则需要快速迭代才能紧跟业务发展步伐。绩效考核频率是一个月一次，因此绩效规则的迭代频率也是每月一次。因为绩效规则系统是硬编码实现，因此开发团队需要投入大量的人力满足规则更新需求。
　　2016 年 10 月底，我受绩效团队委托成立一个项目组，开发部署了一套绩效指标配置系统，系统上线直接减少了产品经理和技术团队 70% 的工作量。
　　下面我们首先分析下绩效指标计算的规则模型，如下图：
　　

　　规则主体是结构化数据处理逻辑：
　　方案：业务定制规则引擎
　　绩效规则主体是数据处理，但我们认为数据处理同样属于规则的范畴，因此我们将其放在本文进行分析。
　　下图是绩效指标配置系统，触发器负责定时驱动引擎进行计算；视图负责给商业分析师提供规则配置界面，规则表达能力取决于视图；引擎负责将配置的规则解析成 Spark 原语进行计算。
　　

　　优点：
　　缺点：
　　探索全新设计
　　“案例”一节中三种落地方案的问题总结如下：
　　由于“高效配置规则”是业务里长期存在的刚需，且行业内又缺乏符合需求的解决方案，2017 年 2 月我在团队内部设立了一个虚拟小组专门负责规则引擎的设计研发。
　　引擎设计指标是要覆盖工作中基础的规则迭代需求（包括但不限于“案例”一节中的多个场景），同时针对“案例”一节中已有解决方案扬长避短。
　　下面分三节来重现这个项目的设计过程：
　　需求模型
　　对规则引擎来说，世界皆规则。通过“案例”一节的分析，我们对规则以及规则引擎该如何构建的思路正逐渐变得清晰。
　　下面两节分别定义规则数据模型和规则引擎的系统模型，目标是对“Maze 框架”一节中的规则引擎产品进行框架性指导。
　　规则数据模型
　　规则本质是一个函数，由 n 个输入、1 个输出和函数计算逻辑 3 部分组成。
　　y = f（x1, x2, …, xn）
　　具体结合“案例”一节中的场景，我们梳理出的规则模型如下图所示：
　　

　　主要由三部分构成：
　　结果对象，规则处理完毕后的结果。需要支持自定义类型或者简单类型（Integer、Long、Float、Double、Short、String、Boolean 等）。
　　系统模型
　　我们需要设计一个系统能配置、加载、解释执行上节中的数据模型，另外设计时还需要规避“案例”一节 3 个方案的缺点。最终我们定义了如下图所示的系统模型。
　　

　　主要由三个模块构成：
　　资源管理器，负责管理规则。
　　最终结果 /** 变量模式 */
　　|
　　|
　　中间结果 > $参数3 /** 关系运算模式 */
　　|
　　|
　　$参数1 + $参数2 /** 算数运算模式 */
　　Maze 框架
　　基于"需求模型"一节的定义，我们开发了 Maze 框架（Maze 是迷宫的意思，寓意：迷宫一样复杂的规则）。
　　Maze 框架分两个引擎：
　　其中 MazeGO 内解析到结构化数据处理模式会调用 SQLC 驱动 MazeQL 完成计算，比如：从数据库里查询某个 BD 的月交易额，如果交易额超过 30 万则执行 A 逻辑否则执行 B 逻辑，这个语义的规则需要执行结构化查询。
　　MazeQL 内解析到策略计算模式会调用 VectorC 驱动 MazeGO 进行计算，比如：有一张订单表，其中第一列是商品 ID，第二列是商品购买数量，第三列是此商品的单价。
　　我们需要计算每类商品的总价则需要对结构化查询到的结果的每一行执行第二列*第三列这样的策略模式计算。
　　

　　名词解释：
　　SQLC 指结构化查询，拥有执行 SQL 的能力。
　　MazeGO
　　MazeGO 核心主要由三部分构成：
　　另外两个辅助模块是流量控制器和规则效果分析模块，基本构成如下图：
　　

　　三个核心模块（引擎、知识库和资源管理器）的职责见“需求模型”一节中“系统模型”一节。
　　下面只介绍下和“系统模型”不同的部分：
　　预编译规则实例，因为规则每次编译执行会导致性能问题，因此会在引擎初始化和规则有变更这两个时机将增量版本的规则预编译成可执行代码。规则管理模块。职责如下：
　　MazeQL
　　MazeQL 核心主要由三部分构成：
　　

　　QL 驱动器，驱动平台进行规则计算。因为任务的实际执行平台有多种（会在下一个“平台”部分介绍），因此 QL 驱动器也有多种实现。
　　预加载规则实例，首先为了避免访问规则时需要实时执行远程调用而造成较大的时延，另外规则并不是时刻发生变更没有必要每次访问时拉取一次最新版本。
　　基于以上两个原因规则管理模块会在引擎初始化阶段将有效版本的规则实例缓存在本地并且监听规则变更事件（监听可以基于 ZooKeeper 实现）。
　　预解析规则实例，因为规则每次解析执行会导致性能（大对象）问题，因此会在引擎初始化阶段解析为运行时可用的调度栈帧。
　　规则管理模块，职责如下，运行时模块。分为调度器和 QL 驱动器。
　　嵌入式模式下是基于 MySQL和 Derby 等实时性较好的数据库实现的。在 Spark 平台上是基于 Spark SQL 实现的。
　　QL 执行器，负责执行结构化查询逻辑。两种不同的运行模式下 QL 执行器在执行 SQL 模式时会选择两种不同的 QL 执行器实现，两种实现分别是：
　　Maze 框架能力模型
　　Maze 框架是一个适用于非技术背景人员，支持复杂规则的配置和计算引擎。
　　

　　规则迭代安全性
　　规则支持热部署，系统通过版本控制，可以灰度一部分流量，增加上线信心。
　　规则表达能力，框架的表达能力覆盖绝大部分代码表达能力。下面用伪代码的形式展示下 Maze 框架的规则部分具有的能力。
　　// 输入N个FACT对象
　　function(Fact[] facts) {
　　// 从FACT对象里提取模式
　　String xx= facts[0].xx;
　　// 从某个数据源获取特征数据，SQLC数据处理能力远超sql语言本身能力，SQLC具有编程+SQL的混合能力
　　List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
　　// 对特征数据和FACT对象应用用户自定义计算模式
　　UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
　　// 使用系统内置表达式模式处理特征
　　int compareResult = userDefinedObj.getFieldXX().compare(XX);

搜索引擎主题模型可以优化的方法有哪些呢？？

网站优化 • 优采云发表了文章 • 0 个评论 • 100 次浏览 • 2022-05-14 04:02 • 来自相关话题

　　搜索引擎主题模型可以优化的方法有哪些呢？？
　　搜索引擎主题模型优化就是通过根据访问量及更新日志、页面定位出主要的主题关键词、搜索引擎变体（wordtag、webtag、webtags）等对主题关键词进行再扩展、主题关键词再定位等方式来提升用户体验，增加网站流量和营收。
　　主题模型优化可以：
　　1、减少用户搜索广告的次数
　　2、有利于搜索引擎收录和排名（搜索引擎更有利于收录网站首页）
　　3、有利于提高网站内容的展示（更有利于展示网站内容）
　　4、减少用户点击次数（使网站曝光度更大）
　　5、减少排名流量（减少网站的排名曝光度）
　　6、减少竞争对手网站点击、点击和点击次数
　　7、减少对搜索引擎的影响（减少搜索引擎收录、排名影响力）主题模型可以优化的方法：
　　1、图片分析，
　　2、当图片表现非常好时，非常好搜索引擎可以认为该网站的形象代表网站的品牌形象，
　　3、当图片出现在非常好的位置时，非常好搜索引擎可以认为该网站拥有良好的用户体验，
　　4、新的主题建立
　　5、主题搜索引擎
　　6、如果存在主题关键词，最好能收集多一些的图片关键词，
　　搜索引擎客户端的分享送流量是最常见的。在线能看到来自各个国家不同地域的网民都在流量分享，主要是手机用户。提问不是很全面，举两个简单例子：分享给国内淘宝商家的海外产品或者达人分享给淘宝同行的新品推荐。我们是一个无边框的纯产品站。我们的经验看是两块，一个是图片的搜索分享，更加精准用户，第二块内容来源搜索，更加精准用户。同行不能放正则表达的关键词，因为除了同行，外行是看不到的。查看全部

　　搜索引擎主题模型可以优化的方法有哪些呢？？
　　搜索引擎主题模型优化就是通过根据访问量及更新日志、页面定位出主要的主题关键词、搜索引擎变体（wordtag、webtag、webtags）等对主题关键词进行再扩展、主题关键词再定位等方式来提升用户体验，增加网站流量和营收。
　　主题模型优化可以：
　　1、减少用户搜索广告的次数
　　2、有利于搜索引擎收录和排名（搜索引擎更有利于收录网站首页）
　　3、有利于提高网站内容的展示（更有利于展示网站内容）
　　4、减少用户点击次数（使网站曝光度更大）
　　5、减少排名流量（减少网站的排名曝光度）
　　6、减少竞争对手网站点击、点击和点击次数
　　7、减少对搜索引擎的影响（减少搜索引擎收录、排名影响力）主题模型可以优化的方法：
　　1、图片分析，
　　2、当图片表现非常好时，非常好搜索引擎可以认为该网站的形象代表网站的品牌形象，
　　3、当图片出现在非常好的位置时，非常好搜索引擎可以认为该网站拥有良好的用户体验，
　　4、新的主题建立
　　5、主题搜索引擎
　　6、如果存在主题关键词，最好能收集多一些的图片关键词，
　　搜索引擎客户端的分享送流量是最常见的。在线能看到来自各个国家不同地域的网民都在流量分享，主要是手机用户。提问不是很全面，举两个简单例子：分享给国内淘宝商家的海外产品或者达人分享给淘宝同行的新品推荐。我们是一个无边框的纯产品站。我们的经验看是两块，一个是图片的搜索分享，更加精准用户，第二块内容来源搜索，更加精准用户。同行不能放正则表达的关键词，因为除了同行，外行是看不到的。

DorisDB在跨越速运查询引擎中的探索实践

网站优化 • 优采云发表了文章 • 0 个评论 • 109 次浏览 • 2022-05-12 01:56 • 来自相关话题

　　DorisDB在跨越速运查询引擎中的探索实践
　　跨越速运集团有限公司创建于2007年，目前服务网点超过3000家，覆盖城市500余个，是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护，支撑20余条核心业务线，面向集团5万多员工的使用。目前，大数据中心已建设数据查询接口1W+，每天调用次数超过1千万，TP99在1秒以下。我们利用DorisDB作为通用查询引擎，有效解决了原架构大量查询返回时间过长，性能达不到预期的问题。
　　“ 作者：张杰跨越集团大数据运维架构师，负责集团公司大数据平台的维护和建设”
　　业务背景
　　总体架构
　　我们原始离线数仓的总体架构如下图所示，数据从各个业务线的数据库，比如MySQL等，通过数据集成工具汇聚到ETL集群（即Hadoop集群），再使用Hive、Spark、Presto等批量处理引擎进行数据仓库的分层处理，然后将DW层和ADS层的数据推送到各种不同的查询引擎。
　　在这些查询引擎之上，有个统一的查询API网关，应用层的自助分析工具或ERP系统前端通过调用这个API网关，将数据内容呈现给用户。
　　
　　业务痛点
　　该系统最大的痛点是查询性能问题。公司对大数据查询接口的响应延迟是有考核的，期望99%的查询请求都能在1秒内返回，比如页面ERP系统、手机端各类报表APP，用户会随时查看数据并进行生产环节调整，过慢的查询响应会影响用户体验，甚至影响业务生产。针对复杂的SQL查询场景，之前采用的Presto、Impala+Kudu、ClickHouse等系统，是远远达不到预期的。另外，针对各种复杂的数据分析业务场景，引入很多不同组件，导致了维护和使用成本非常高。
　　因此，我们急需一个新的查询引擎，能统一查询引擎，解决性能查询问题，降低使用和维护成本。
　　OLAP引擎选型
　　
　　第一阶段，在2019年，跨越集团大数据中心使用Presto作为通用的查询引擎。此阶段集团大数据中心数仓层基本用的是Hive，Presto可以直连Hive的特性让我们无需做过多的改造，就可以直接生成查询的API。从性能角度考虑，我们也会将数仓中的部分数据拷贝至独立的Presto集群，和数仓ETL集群进行资源隔离。这套架构运行一年多之后，随着业务需求越来越复杂，数据量越来越大，该基于Presto构建的集群性能急剧下降。
　　第二阶段，为解决Presto集群性能不足的缺陷，我们基于ClickHouse开始构建新的通用查询引擎。2020年我们使用ClickHouse构建了大量大宽表，将此前需要多层关联的查询逐步迁移到ClickHouse集群。通过这种方式，我们确实解决了此前面临的性能问题。但与此同时，我们需要建设越来越多的大宽表，操作繁琐运维困难。并且这种数据模型无法随业务需求变化而快速改变，灵活性差。
　　第三阶段，我们在2021年开始寻找其他能满足我们需求的OLAP引擎，此时我们发现了DorisDB这个产品。首先关注到DorisDB的单表、多表关联查询的性能都非常优秀，能够满足我们对查询延时的需求；DorisDB支持MySQL协议，让我们开发同事在开发接口的时候学习和使用门槛非常低。另外，DorisDB还具备支持按主键更新、支持多种类型外表、部署运维简单以及支持丰富的数据导入方式等特性。这些都是我们所需要的。
　　因此，我们开始逐步将以往的分析业务迁移到DorisDB集群上，将DorisDB作为大数据中心的通用查询引擎。
　　DorisDB在跨越集团的应用
　　在线场景应用
　　当前我们每天在线数据接口的查询请求量已经超过千万。在引入DorisDB前，我们用了8到9种查询引擎来支撑各种在线业务场景。大数据量的明细点查场景使用ElasticSearch作为支撑；对于查询维度固定、可以提前预计算的报表场景，会使用MySQL；对于SQL查询复杂，如果多表Join、子查询嵌套的查询场景，会使用Presto；实时更新的场景，则会使用Impala+Kudu的组合来支撑。
　　引入DorisDB后，目前已替换掉Presto和Impala+Kudu支撑的场景。ElasticSearch、MySQL以及ClickHouse，后续也可能会根据业务场景实际情况逐步替换为DorisDB。
　　下面详细介绍一个实际在线场景的典型案例。如上图，我们在原Presto系统上有一个包含200个字段的宽表聚合查询。由于业务需求比较复杂，SQL语句有600多行。我们曾希望从业务逻辑上进行优化，但是并不容易，不能因为系统能力问题就一味要求业务方来迁就。现在我们使用10个节点相同配置的DorisDB替换原15台相同配置服务器的Presto集群后，在没有做什么业务逻辑变化的情况下，使用DorisDB明细模型，凭借DorisDB本身的高性能将查询延时从5.7秒降低为1秒，性能是原Presto集群的近6倍。
　　OLAP场景应用
　　跨越集团的OLAP多维分析平台是我们自研的一套BI系统。用户可以根据自己业务场景选择字段以及关联条件等，以拖拉拽的方式生成数据的表格或图表。最早我们支撑OLAP多维分析的后端引擎是Presto，在这类场景下的性能确实不尽如人意。因为性能问题，我们也没办法将这个工具推广给更多的用户使用。我们将后端查询引擎替换为DorisDB后，性能提升非常明显。我们将OLAP多维分析平台向整个集团推广，受到了越来越多的用户好评。
　　OLAP多维分析主要是离线分析为主，以客户离线分析场景为例，数据经过ETL处理后，生成对应的DW层或ADS层数据，再通过Broker Load将数据按天导入DorisDB中。我们使用星型模型构建客户主题域，客户主表以明细模型在DorisDB中建表，同样以明细模型创建维表。这样用户就可以在前端对客户主题域的各种指标、各种维度进行拖拉拽，生成对应的表格和图表。
　　
　　在客户离线分析场景下，我们DorisDB上线前后业务逻辑没有进行太多调整前提下，TP99从4.5秒下降到1.7秒，性能是原来的三倍（后续我们将尝试开启CBO优化器，预计会有更大性能提升）。绝大多数场景都能实现1s内返回，大大提升了用户的体验。
　　
　　利用DorisDB的实时分析能力，我们还构建了实时OLAP多维分析。以运单实时分析场景为例，原本我们是用Hive每两小时跑批的方式来实现的，将固定维度数据算好，结果写入Presto上提供查询，逻辑类似于离线数仓，并不能称为真正的实时。引入DorisDB后，我们调整数据流转逻辑，通过监听Binlog将数据写入Kafka，再通过Rontine Load的方式消费Kafka，将数据实时写入DorisDB中。我们使用更新模型建立实时运单主表，将运单ID设置成主键，这样每一笔运单更新后，都能实时更新到运单主表中。和离线分析场景一样，使用星型模型构建运单主题域。
　　
　　通过这样的调整，以往每两小时更新数据的运单主题域，现在可以实现秒级更新，成为名副其实的实时分析。另外此前需要依赖预计算，维度都是固定的，很多分析上功能受限。经改造后，除了大幅提升“实时”体验外，在分析灵活性上的提升也非常明显。实时体验和灵活分析也成为OLAP多维分析平台工具在实际服务中最大的亮点。
　　后续规划
　　1、为了避免部分慢查询影响整体的集群性能，后续会搭建多套DorisDB集群，按业务场景进行物理资源隔离。
　　2、 DorisDB查询Hive外表的功能，经内部测试比Presto查询Hive的性能要好，后续会将原本Presto查询Hive的场景无缝迁移到DorisDB上。
　　3、目前我们在DorisDB上写入了很多实时数据，这些数据需要进行聚合等处理，我们正在尝试使用调度工具，在DorisDB上进行5分钟级、10分钟级的轻量ETL处理。
　　4、开启DorisDB的CBO优化器，进一步提升查询性能。
　　最后，感谢鼎石为我们提供DorisDB这么好的产品，满足了我们对性能强、功能全的查询引擎产品的要求；感谢鼎石一直以来提供的技术支持，解决了我们在使用中遇到的各类问题。
　　END
　　
　　【热门文章】1.2.3.4.5.5.6.7.
　　8. 查看全部

　　业务痛点
　　该系统最大的痛点是查询性能问题。公司对大数据查询接口的响应延迟是有考核的，期望99%的查询请求都能在1秒内返回，比如页面ERP系统、手机端各类报表APP，用户会随时查看数据并进行生产环节调整，过慢的查询响应会影响用户体验，甚至影响业务生产。针对复杂的SQL查询场景，之前采用的Presto、Impala+Kudu、ClickHouse等系统，是远远达不到预期的。另外，针对各种复杂的数据分析业务场景，引入很多不同组件，导致了维护和使用成本非常高。
　　因此，我们急需一个新的查询引擎，能统一查询引擎，解决性能查询问题，降低使用和维护成本。
　　OLAP引擎选型
　　

　　第一阶段，在2019年，跨越集团大数据中心使用Presto作为通用的查询引擎。此阶段集团大数据中心数仓层基本用的是Hive，Presto可以直连Hive的特性让我们无需做过多的改造，就可以直接生成查询的API。从性能角度考虑，我们也会将数仓中的部分数据拷贝至独立的Presto集群，和数仓ETL集群进行资源隔离。这套架构运行一年多之后，随着业务需求越来越复杂，数据量越来越大，该基于Presto构建的集群性能急剧下降。
　　第二阶段，为解决Presto集群性能不足的缺陷，我们基于ClickHouse开始构建新的通用查询引擎。2020年我们使用ClickHouse构建了大量大宽表，将此前需要多层关联的查询逐步迁移到ClickHouse集群。通过这种方式，我们确实解决了此前面临的性能问题。但与此同时，我们需要建设越来越多的大宽表，操作繁琐运维困难。并且这种数据模型无法随业务需求变化而快速改变，灵活性差。
　　第三阶段，我们在2021年开始寻找其他能满足我们需求的OLAP引擎，此时我们发现了DorisDB这个产品。首先关注到DorisDB的单表、多表关联查询的性能都非常优秀，能够满足我们对查询延时的需求；DorisDB支持MySQL协议，让我们开发同事在开发接口的时候学习和使用门槛非常低。另外，DorisDB还具备支持按主键更新、支持多种类型外表、部署运维简单以及支持丰富的数据导入方式等特性。这些都是我们所需要的。
　　因此，我们开始逐步将以往的分析业务迁移到DorisDB集群上，将DorisDB作为大数据中心的通用查询引擎。
　　DorisDB在跨越集团的应用
　　在线场景应用
　　当前我们每天在线数据接口的查询请求量已经超过千万。在引入DorisDB前，我们用了8到9种查询引擎来支撑各种在线业务场景。大数据量的明细点查场景使用ElasticSearch作为支撑；对于查询维度固定、可以提前预计算的报表场景，会使用MySQL；对于SQL查询复杂，如果多表Join、子查询嵌套的查询场景，会使用Presto；实时更新的场景，则会使用Impala+Kudu的组合来支撑。
　　引入DorisDB后，目前已替换掉Presto和Impala+Kudu支撑的场景。ElasticSearch、MySQL以及ClickHouse，后续也可能会根据业务场景实际情况逐步替换为DorisDB。
　　下面详细介绍一个实际在线场景的典型案例。如上图，我们在原Presto系统上有一个包含200个字段的宽表聚合查询。由于业务需求比较复杂，SQL语句有600多行。我们曾希望从业务逻辑上进行优化，但是并不容易，不能因为系统能力问题就一味要求业务方来迁就。现在我们使用10个节点相同配置的DorisDB替换原15台相同配置服务器的Presto集群后，在没有做什么业务逻辑变化的情况下，使用DorisDB明细模型，凭借DorisDB本身的高性能将查询延时从5.7秒降低为1秒，性能是原Presto集群的近6倍。
　　OLAP场景应用
　　跨越集团的OLAP多维分析平台是我们自研的一套BI系统。用户可以根据自己业务场景选择字段以及关联条件等，以拖拉拽的方式生成数据的表格或图表。最早我们支撑OLAP多维分析的后端引擎是Presto，在这类场景下的性能确实不尽如人意。因为性能问题，我们也没办法将这个工具推广给更多的用户使用。我们将后端查询引擎替换为DorisDB后，性能提升非常明显。我们将OLAP多维分析平台向整个集团推广，受到了越来越多的用户好评。
　　OLAP多维分析主要是离线分析为主，以客户离线分析场景为例，数据经过ETL处理后，生成对应的DW层或ADS层数据，再通过Broker Load将数据按天导入DorisDB中。我们使用星型模型构建客户主题域，客户主表以明细模型在DorisDB中建表，同样以明细模型创建维表。这样用户就可以在前端对客户主题域的各种指标、各种维度进行拖拉拽，生成对应的表格和图表。
　　

　　在客户离线分析场景下，我们DorisDB上线前后业务逻辑没有进行太多调整前提下，TP99从4.5秒下降到1.7秒，性能是原来的三倍（后续我们将尝试开启CBO优化器，预计会有更大性能提升）。绝大多数场景都能实现1s内返回，大大提升了用户的体验。
　　

　　利用DorisDB的实时分析能力，我们还构建了实时OLAP多维分析。以运单实时分析场景为例，原本我们是用Hive每两小时跑批的方式来实现的，将固定维度数据算好，结果写入Presto上提供查询，逻辑类似于离线数仓，并不能称为真正的实时。引入DorisDB后，我们调整数据流转逻辑，通过监听Binlog将数据写入Kafka，再通过Rontine Load的方式消费Kafka，将数据实时写入DorisDB中。我们使用更新模型建立实时运单主表，将运单ID设置成主键，这样每一笔运单更新后，都能实时更新到运单主表中。和离线分析场景一样，使用星型模型构建运单主题域。
　　

　　通过这样的调整，以往每两小时更新数据的运单主题域，现在可以实现秒级更新，成为名副其实的实时分析。另外此前需要依赖预计算，维度都是固定的，很多分析上功能受限。经改造后，除了大幅提升“实时”体验外，在分析灵活性上的提升也非常明显。实时体验和灵活分析也成为OLAP多维分析平台工具在实际服务中最大的亮点。
　　后续规划
　　1、为了避免部分慢查询影响整体的集群性能，后续会搭建多套DorisDB集群，按业务场景进行物理资源隔离。
　　2、 DorisDB查询Hive外表的功能，经内部测试比Presto查询Hive的性能要好，后续会将原本Presto查询Hive的场景无缝迁移到DorisDB上。
　　3、目前我们在DorisDB上写入了很多实时数据，这些数据需要进行聚合等处理，我们正在尝试使用调度工具，在DorisDB上进行5分钟级、10分钟级的轻量ETL处理。
　　4、开启DorisDB的CBO优化器，进一步提升查询性能。
　　最后，感谢鼎石为我们提供DorisDB这么好的产品，满足了我们对性能强、功能全的查询引擎产品的要求；感谢鼎石一直以来提供的技术支持，解决了我们在使用中遇到的各类问题。
　　END
　　

　　【热门文章】1.2.3.4.5.5.6.7.
　　8.

实现订单线索量增长，落地页优化该怎么做？

网站优化 • 优采云发表了文章 • 0 个评论 • 126 次浏览 • 2022-05-12 01:56 • 来自相关话题

　　实现订单线索量增长，落地页优化该怎么做？
　　
　　广告做得好不好，落地页至关重要，账户管理能起到的效果有60%，剩下的40%全在落地页上，一个好的落地页总是能获得更多的订单和线索。
　　落地页要怎么做？我们经过几年的实践总结出落地页做法。学习了这些做法，能让你在落地页优化上更进一步。落地页（Landing Page）是指用户搜索了关键词后点击了广告看到的第一个页面。跟落地页最相关的指标就是跳出率，跳出率会反映落地页的效果。
　　什么是好与坏，单纯对于一个页面来说，没有好与坏的概念，只有合适与否，有很多时候页面设计得很丑，但是搜索一系列需求的用户找到了自己要的结果，并且在这个页面上完成了我们希望他完成的动作，这就是一个好的落地页。有很多落地页，做得蓬荜生辉，但是访客完全看不懂，这样的落地页就算做得再好看，也不是一个好的落地页。
　　01
　　给不同的单元制作落地页
　　行动起来要比制定策略更有效，让所有流量都着陆到首页是一个十分不明智的推广策略，前面我们提到不同单元是不同的需求，如果我们可以分出十几个单元，那么就代表访客会有十几种需求，访客不希望所有的人都看到一个页面的，我们也很难一个页面就满足所有需求。拿易观方舟举例，用户画像的需求和用户行为分析的需求是两个需求，一个易观方舟的首页是无法同时满足这两部分需求的。
　　访客在搜索引擎上搜索结果，点击，浏览页面，整个过程不会有过多的思考，但是他们是有着一个原始诉求的。当访客打开页面，看不到他们希望得到的结果，就会马上关掉页面离开，所以我们做落地页的第一要务就是要让访客得到他想要的。
　　02
　　着陆体验优化
　　访客从广告点击进来后，会在3秒内决定，是否要继续观看，所以，着陆页是否被认可在3秒就决定，有几个要点来提高着陆页的体验，我想我们听过很多关于着陆页的优化方法，例如利用人性的弱点，利用lift模型等，但是在真正实操过程中，我们会总结出一些独有的落地页优化方法，分享给你。
　　清晰的价值主张
　　反复去琢磨你的第一屏文字，要注意的是不要站在自己的角度把文字的理解拔高，因为比“看上去厉害”更重要的是容易理解，如果文字表述让访客可以瞬间理解，你已经成功了一半。打开速度要快
　　如果在移动端也有投放，移动端一定要考虑打开速度，当然这个问题PC端同样要考虑，移动端考虑的比较多一些，因为移动端会出现网络不稳定的情况，是什么决定了网页打开慢？这些都会影响落地页的体验，在着陆页开发的时候要注意。有诱惑力的CTA
　　CTA是一个着陆页的必要性条件，一个着陆页有CTA才算完整，如果想更近一步提高落地页的转化能力，需要让CTA具备诱惑力，举例：解决方案页面的CTA应该是传递注册后可以直接获取解决方案，而资料页面的CTA应该是注册后可以直接获取资料。如果CTA只是注册或者购买，那么整个的落地页效果会明显打折扣。CTA往往后面跟着表单，无论你是希望客户留资，还是购买，都会有输入表单的环节，尽可能让表单在当前页面完成而不要跳转，多跳转一次意味着增加一次流失的风险。精致代表着品牌力
　　如果有可能的话，尽量让你的页面精致一些，包括字体、图片，都应该有专业的设计人员来进行规范性设计，因为在理解价值主张和你的产品之前，页面给访客的感觉是比较重要的，你有没有一些感触，有一些页面，你一看就会产生极大的不信任，因为不信任而关闭网页？所以，多花点时间，让你的落地页变得标准、规范，是十分有必要的。数据分析得出来的落地页洞察
　　我们通过数据分析得出来落地页转化率更高的方法，分享给你落地页做好后，最好的检验方式是首先自己团队要模拟用户，不断感受整个体验过程中不舒服的地方，同时投放在小部分用户身上，去测试。为落地页建立转化漏斗，看一下着陆，点击，完成表单的整体转化率，去分析在不同环节用户为什么流失，不断的优化转化率提高落地页转化效果。
　　03
　　广告连续性
　　广告连续性指的是，用户在看到广告创意，点击广告创意，通过链接，看到落地页的整体体验保持连续性，让用户的思考不间断，并不断加强动机。你是否有过一个场景，你想买个小熊饼干，你在搜索引擎上搜索了小熊饼干，看到第一条广告创意上写的，北京最受欢迎的小熊饼干，然后你打开了这个广告后，进入的页面第一屏的文字是，我们有北京最好的小熊饼干抱枕，此时你可能会毫不犹豫地关闭掉这个页面。以上是典型广告连续性断档，在访客沿着你的广告创意，进入落地页，而浏览落地页的过程中任何环节断档，都会导致用户离开。所以想提高SEM的转化效果，广告连续性是值得优先调整的方向，所以我们有以下建议：标题环节给予明显的可执行前置
　　通常我们会在落地页环节设置CTA，但是同样用法如果前置在广告标题上效果会更好。比如在标题结尾写上免费领取或者免费试用。你会比友商获得更多点击，因为访客在点击广告时已自带需求，这样的需求如果可以保持连贯性并被满足，会增强访客在落地页里的执行动机。创意描述里继续强化
　　在创意里清楚表达可以提供的产品价值，同时强化访客可以获得的好处，这相当于对创意标题的支撑。不过创意描述始终是描述，还需要尽可能表达更多的价值主张。不同创意有不同描述方式，忌讳千篇一律的描述。描述格式整齐，语义通顺是加分项，而有明显优惠政策与活动激励会让广告更具有吸引力。落地页的连续性承接
　　切记，访客搜索关键词是附带需求的，点击链接是在寻找解决需求的解决方案的，如果标题和描述都表达了你可以解决访客需求，那么在着陆页里一定要给访客他想要的答案，才会有可能让访客驻足。从创意到描述再到落地页内容上，要有高度的连贯性，以及有足够的诱惑，才会获得更好的转化。
　　04
　　敏捷迭代
　　无论是做产品还是做市场，早期产品迭代都根据我们自己的洞察与思考来创作，而真正被认可的产品是需要经过市场打磨，并反复迭代的。所以我们做推广获客的时候也需要通过数据分析驱动敏捷迭代让获客能力增长更加快速。
　　那么，如何利用数据驱动敏捷迭代，我们可以分成两个步骤：
　　得到原始数据
　　所谓增长不是毫无根据地提出无法完成的增长幅度。例如ToB类公众号就不要随意制定10w+阅读这样的KPI，合理的增长目标是根据自身当前的数据提出的挑战性目标。
　　所以，首先要知道我们所进行推广相关的数据状态，作为SEM业务，有相应的指标体系，在前面章节有提到，核心关注的是不同单元的资金ROI，此时运营SEM就像经营一个公司一样，而在落地页上要关注不同落地页的跳出率，转化率，通过热图了解浏览深度线和元素点击率。这样对所有的转化流程有了一个初步的数据基准，设定一个挑战性目标就可以开始试验了。PDCA（plan-do-check-action）敏捷试验无论是文字、图片，还是颜色、主题，都是我们试验的对象，在经过内部小组初步讨论后，将挑战版本和原始版本进行测试。试验方向：l更简单明了的文字表述会降低跳出率lCTA按钮的文字会影响点击率l移动端的适配会影响移动端的停留时长l表单的字段顺序对完成率也会有影响l价值导向的表单会比销售表单转化率更高…除了以上提出的迭代建议，不同的运营人员试验思路也是不同的，唯一不变的是敏捷迭代的过程中需要数据来进行试验结果的校验，这就涉及到落地页转化效果评估。
　　05
　　落地页转化评估效果
　　根据前文的原则优化落地页只是开端，将落地页真正落地、提高我们获客的收益才是目的，我们所有一切改进都要围绕“提高ROI”的方向展开，因此对落地页转化效果进行评估是关键一环。通过数据的评估与复盘，我们可以快速定位问题、解决问题，以数据促进业务的增长。正如前文提及的，我们可能会开展一系列的试验，但最终也离不开效果的评估。我们可以通过用户行为分析模型帮助我们进行试验的判定：事件分析事件分析可以很好地监测按钮的点击情况，通常会用来判断CTA的引导效果。
　　漏斗分析漏斗分析是优化落地页最重要的分析模型，通过漏斗分析可以知道从着陆页流量到点击按钮次数再到完成下单或注册的三级漏斗数据，这样就可以帮助我们判断我们的落地页转化能力。当我们进行一些试验的时候，可以通过漏斗整体的变化判断试验是否成功，也可以保存流失的用户，在方舟内部给他们群发消息召回他们，至少来到落地页上的用户是关注这个话题的。
　　Session分析 Session分析自带跳出率分析，可以辅助我们做着陆页的整体优化试验。
　　此外，需要注意的是，一些网站上通常会提供在线咨询服务，或留下表单让访客填写。在这一问题上，建议处理一定要讲求时效性，越快越好。因为不管是在线咨询还是提交注册信息都意味着需求，倘若拖了半天时间，可能访客在搜索引擎上自己搜索已经得到答案，这时候不管访客是已经解决问题还是找到其他替代方案，他本身的需求已经大幅降低，这时候再去回复或沟通，他沟通的意愿会降低、需求场景逐渐消失，这条线索的价值也就大大萎缩了。因此，在评估落地页转化的效果时，不仅要对落地页各项数据有个明晰的把握，也要对落地页内置咨询、表单线索处理等方面做一个全面的考察。落地页对转化有决定性作用，通过分析模型可以帮助我们更好地观察敏捷迭代后的数据变化，而至于如何敏捷迭代，大胆想象，小心求证，一些小的试验结果长期积累，会得到很好的反馈。
　　2021年，我们面临新的行业环境，通过整合当下更全面的线上营销渠道和投放策略，推出了全新的《2021数字营销白皮书》。
　　全书50页，分10个章节，覆盖线上用户生命周期、用户获客指标、常见获客渠道、营销素材处理、账户精细化管理、数据化投放跟踪、落地页设计制作等多维度，系统地为市场营销人提供线上数字营销从策略到落地执行的全攻略支持。
　　
　　
　　每天掌握更多数据运营干货查看全部

　　实现订单线索量增长，落地页优化该怎么做？
　　

　　广告做得好不好，落地页至关重要，账户管理能起到的效果有60%，剩下的40%全在落地页上，一个好的落地页总是能获得更多的订单和线索。
　　落地页要怎么做？我们经过几年的实践总结出落地页做法。学习了这些做法，能让你在落地页优化上更进一步。落地页（Landing Page）是指用户搜索了关键词后点击了广告看到的第一个页面。跟落地页最相关的指标就是跳出率，跳出率会反映落地页的效果。
　　什么是好与坏，单纯对于一个页面来说，没有好与坏的概念，只有合适与否，有很多时候页面设计得很丑，但是搜索一系列需求的用户找到了自己要的结果，并且在这个页面上完成了我们希望他完成的动作，这就是一个好的落地页。有很多落地页，做得蓬荜生辉，但是访客完全看不懂，这样的落地页就算做得再好看，也不是一个好的落地页。
　　01
　　给不同的单元制作落地页
　　行动起来要比制定策略更有效，让所有流量都着陆到首页是一个十分不明智的推广策略，前面我们提到不同单元是不同的需求，如果我们可以分出十几个单元，那么就代表访客会有十几种需求，访客不希望所有的人都看到一个页面的，我们也很难一个页面就满足所有需求。拿易观方舟举例，用户画像的需求和用户行为分析的需求是两个需求，一个易观方舟的首页是无法同时满足这两部分需求的。
　　访客在搜索引擎上搜索结果，点击，浏览页面，整个过程不会有过多的思考，但是他们是有着一个原始诉求的。当访客打开页面，看不到他们希望得到的结果，就会马上关掉页面离开，所以我们做落地页的第一要务就是要让访客得到他想要的。
　　02
　　着陆体验优化
　　访客从广告点击进来后，会在3秒内决定，是否要继续观看，所以，着陆页是否被认可在3秒就决定，有几个要点来提高着陆页的体验，我想我们听过很多关于着陆页的优化方法，例如利用人性的弱点，利用lift模型等，但是在真正实操过程中，我们会总结出一些独有的落地页优化方法，分享给你。
　　清晰的价值主张
　　反复去琢磨你的第一屏文字，要注意的是不要站在自己的角度把文字的理解拔高，因为比“看上去厉害”更重要的是容易理解，如果文字表述让访客可以瞬间理解，你已经成功了一半。打开速度要快
　　如果在移动端也有投放，移动端一定要考虑打开速度，当然这个问题PC端同样要考虑，移动端考虑的比较多一些，因为移动端会出现网络不稳定的情况，是什么决定了网页打开慢？这些都会影响落地页的体验，在着陆页开发的时候要注意。有诱惑力的CTA
　　CTA是一个着陆页的必要性条件，一个着陆页有CTA才算完整，如果想更近一步提高落地页的转化能力，需要让CTA具备诱惑力，举例：解决方案页面的CTA应该是传递注册后可以直接获取解决方案，而资料页面的CTA应该是注册后可以直接获取资料。如果CTA只是注册或者购买，那么整个的落地页效果会明显打折扣。CTA往往后面跟着表单，无论你是希望客户留资，还是购买，都会有输入表单的环节，尽可能让表单在当前页面完成而不要跳转，多跳转一次意味着增加一次流失的风险。精致代表着品牌力
　　如果有可能的话，尽量让你的页面精致一些，包括字体、图片，都应该有专业的设计人员来进行规范性设计，因为在理解价值主张和你的产品之前，页面给访客的感觉是比较重要的，你有没有一些感触，有一些页面，你一看就会产生极大的不信任，因为不信任而关闭网页？所以，多花点时间，让你的落地页变得标准、规范，是十分有必要的。数据分析得出来的落地页洞察
　　我们通过数据分析得出来落地页转化率更高的方法，分享给你落地页做好后，最好的检验方式是首先自己团队要模拟用户，不断感受整个体验过程中不舒服的地方，同时投放在小部分用户身上，去测试。为落地页建立转化漏斗，看一下着陆，点击，完成表单的整体转化率，去分析在不同环节用户为什么流失，不断的优化转化率提高落地页转化效果。
　　03
　　广告连续性
　　广告连续性指的是，用户在看到广告创意，点击广告创意，通过链接，看到落地页的整体体验保持连续性，让用户的思考不间断，并不断加强动机。你是否有过一个场景，你想买个小熊饼干，你在搜索引擎上搜索了小熊饼干，看到第一条广告创意上写的，北京最受欢迎的小熊饼干，然后你打开了这个广告后，进入的页面第一屏的文字是，我们有北京最好的小熊饼干抱枕，此时你可能会毫不犹豫地关闭掉这个页面。以上是典型广告连续性断档，在访客沿着你的广告创意，进入落地页，而浏览落地页的过程中任何环节断档，都会导致用户离开。所以想提高SEM的转化效果，广告连续性是值得优先调整的方向，所以我们有以下建议：标题环节给予明显的可执行前置
　　通常我们会在落地页环节设置CTA，但是同样用法如果前置在广告标题上效果会更好。比如在标题结尾写上免费领取或者免费试用。你会比友商获得更多点击，因为访客在点击广告时已自带需求，这样的需求如果可以保持连贯性并被满足，会增强访客在落地页里的执行动机。创意描述里继续强化
　　在创意里清楚表达可以提供的产品价值，同时强化访客可以获得的好处，这相当于对创意标题的支撑。不过创意描述始终是描述，还需要尽可能表达更多的价值主张。不同创意有不同描述方式，忌讳千篇一律的描述。描述格式整齐，语义通顺是加分项，而有明显优惠政策与活动激励会让广告更具有吸引力。落地页的连续性承接
　　切记，访客搜索关键词是附带需求的，点击链接是在寻找解决需求的解决方案的，如果标题和描述都表达了你可以解决访客需求，那么在着陆页里一定要给访客他想要的答案，才会有可能让访客驻足。从创意到描述再到落地页内容上，要有高度的连贯性，以及有足够的诱惑，才会获得更好的转化。
　　04
　　敏捷迭代
　　无论是做产品还是做市场，早期产品迭代都根据我们自己的洞察与思考来创作，而真正被认可的产品是需要经过市场打磨，并反复迭代的。所以我们做推广获客的时候也需要通过数据分析驱动敏捷迭代让获客能力增长更加快速。
　　那么，如何利用数据驱动敏捷迭代，我们可以分成两个步骤：
　　得到原始数据
　　所谓增长不是毫无根据地提出无法完成的增长幅度。例如ToB类公众号就不要随意制定10w+阅读这样的KPI，合理的增长目标是根据自身当前的数据提出的挑战性目标。
　　所以，首先要知道我们所进行推广相关的数据状态，作为SEM业务，有相应的指标体系，在前面章节有提到，核心关注的是不同单元的资金ROI，此时运营SEM就像经营一个公司一样，而在落地页上要关注不同落地页的跳出率，转化率，通过热图了解浏览深度线和元素点击率。这样对所有的转化流程有了一个初步的数据基准，设定一个挑战性目标就可以开始试验了。PDCA（plan-do-check-action）敏捷试验无论是文字、图片，还是颜色、主题，都是我们试验的对象，在经过内部小组初步讨论后，将挑战版本和原始版本进行测试。试验方向：l更简单明了的文字表述会降低跳出率lCTA按钮的文字会影响点击率l移动端的适配会影响移动端的停留时长l表单的字段顺序对完成率也会有影响l价值导向的表单会比销售表单转化率更高…除了以上提出的迭代建议，不同的运营人员试验思路也是不同的，唯一不变的是敏捷迭代的过程中需要数据来进行试验结果的校验，这就涉及到落地页转化效果评估。
　　05
　　落地页转化评估效果
　　根据前文的原则优化落地页只是开端，将落地页真正落地、提高我们获客的收益才是目的，我们所有一切改进都要围绕“提高ROI”的方向展开，因此对落地页转化效果进行评估是关键一环。通过数据的评估与复盘，我们可以快速定位问题、解决问题，以数据促进业务的增长。正如前文提及的，我们可能会开展一系列的试验，但最终也离不开效果的评估。我们可以通过用户行为分析模型帮助我们进行试验的判定：事件分析事件分析可以很好地监测按钮的点击情况，通常会用来判断CTA的引导效果。
　　漏斗分析漏斗分析是优化落地页最重要的分析模型，通过漏斗分析可以知道从着陆页流量到点击按钮次数再到完成下单或注册的三级漏斗数据，这样就可以帮助我们判断我们的落地页转化能力。当我们进行一些试验的时候，可以通过漏斗整体的变化判断试验是否成功，也可以保存流失的用户，在方舟内部给他们群发消息召回他们，至少来到落地页上的用户是关注这个话题的。
　　Session分析 Session分析自带跳出率分析，可以辅助我们做着陆页的整体优化试验。
　　此外，需要注意的是，一些网站上通常会提供在线咨询服务，或留下表单让访客填写。在这一问题上，建议处理一定要讲求时效性，越快越好。因为不管是在线咨询还是提交注册信息都意味着需求，倘若拖了半天时间，可能访客在搜索引擎上自己搜索已经得到答案，这时候不管访客是已经解决问题还是找到其他替代方案，他本身的需求已经大幅降低，这时候再去回复或沟通，他沟通的意愿会降低、需求场景逐渐消失，这条线索的价值也就大大萎缩了。因此，在评估落地页转化的效果时，不仅要对落地页各项数据有个明晰的把握，也要对落地页内置咨询、表单线索处理等方面做一个全面的考察。落地页对转化有决定性作用，通过分析模型可以帮助我们更好地观察敏捷迭代后的数据变化，而至于如何敏捷迭代，大胆想象，小心求证，一些小的试验结果长期积累，会得到很好的反馈。
　　2021年，我们面临新的行业环境，通过整合当下更全面的线上营销渠道和投放策略，推出了全新的《2021数字营销白皮书》。
　　全书50页，分10个章节，覆盖线上用户生命周期、用户获客指标、常见获客渠道、营销素材处理、账户精细化管理、数据化投放跟踪、落地页设计制作等多维度，系统地为市场营销人提供线上数字营销从策略到落地执行的全攻略支持。
　　

　　每天掌握更多数据运营干货

狙击谷歌搜索

网站优化 • 优采云发表了文章 • 0 个评论 • 95 次浏览 • 2022-05-12 01:53 • 来自相关话题

　　狙击谷歌搜索
　　
　　下一代搜索引擎从根本上会基于不同的价值观（可控、可信赖），采取不同的商业模式。近十年人工智能技术的发展，使得小公司颠覆搜索巨头成为可能。
　　编译 |吴昕
　　来源 |a16z
　　二十年来，搜索引擎设计或商业模式没有任何重大创新。
　　相信很多人早已厌倦充斥广告、商业泛滥的搜索，但更习惯于「忍忍就过去了」的将就。对于收割「羊群」注意力的商业手腕儿，哥伦比亚大学法学院教授 Tim Wu 在《注意力经济》一书中早已做了详尽描述。靠着广告费支撑着各种免费产品，占据数据撒哈拉的搜索巨头自然希望安于现状，但可供指望的「救星」又屈指可数。至少 5 或 10 年前想要建立一家搜索引擎公司与谷歌竞争，会非常困难，而且基本上不可能，因为需要数百人和大量训练数据。
　　不过最近几年，情况有所改变。就巨头们而言，随着各自赖以起家的核心业务走到巅峰，为了支持超高市值，他们开始迈入已知巨大市场，相互踩踏，比如搜索。
　　微软必应自然希望多一些市场份额。坐拥庞大电商平台和商家的亚马逊为什么不让用户直接从「自己花园」里开始搜索而一直要做谷歌的大客户？苹果直接高调挖走谷歌搜索和AI负责人。Siri基本上就是一个搜索引擎，通过回答用户提出的问题，可以帮苹果获得可观收益。虽然大打隐私牌的苹果似乎不想直接从广告挣钱，但用户还是难断定巨头们涉足搜索不过是另一轮「圈地运动」、收割流量的代名词。
　　在构建根本不同的东西、借由「创新者的窘境」式游戏来削弱谷歌搜索的路上，绝大多数创业公司被寄予希望，却总显得孤独寂寞。但也有例外。2021年，理查德·索切尔（Richard Socher）创立新公司，进军搜索领域。这是一个无广告、保护隐私的搜索引擎。
　　
　　Socher 曾在推特上发问，具有什么样功能的搜索引擎会让你放弃谷歌? KK的回复是：没有广告；付费订阅。
　　一直关注人工智能领域的中国读者一定很熟悉这个名字。索切尔曾于2014 年创办了 MetaMind，后被 Salesforce 收购。索切尔的优秀履历也再添一份精彩：Salesforce 首席科学家和执行副总裁。
　　这位曾被世界经济论坛称为「人工智能神童之一」的后起之秀，于2014年在斯坦福大学计算机系获得博士学位，也是组建 ImageNet 团队成员之一，曾与 Chris Manning、吴恩达一起研究深度学习。不过，他并不眷恋纯粹的学术研究，毕业后即创业（成立 MetaMind ）。他认为，拥有工程资源、让AI真正发挥作用可能更为重要。
　　自2012年深度学习革命爆发以来，理查德·索切尔就一直在参与其中，从事深度学习和摘要技术（Summarization）的研究。最近十年，人工智能领域发生了巨大的变化，特别是深度学习、无监督、半监督和迁移学习的激增使得像这样的小公司可以与谷歌对抗，而充满杂乱广告链接、隐私体验欠佳的搜索引擎成为这些重要技术的最佳应用场景。索切尔认为，摘要技术不仅是信息时代的一项基础技术，也是注意力经济的一种解决方案。
　　现在是启动新搜索引擎的最佳时机。他们利用自然语言处理（NLP）来理解理解查询意图，对搜索结果进行排名，并将人类语言语义解析为不同 API 的计算机语言。平台汇总了来自网络的信息，并且可以通过内置的搜索应用程序进行扩展，例如 Yelp 和 Twitter 的应用程序，用户无需离开结果页面即可完成搜索任务。让用户从多个不同角度探索一个主题。
　　
　　输入Briney Spears ，的页面显示。
　　索切尔希望建立一个真正以消费者为中心的搜索工具，该工具不依赖广告和对用户的了解。这个工具可以帮助你研究、总结网页信息，获得一些真正有价值的信息。
　　对工具可信赖、可控的强调，可能也与他这几年的工作体验有关。他承认，在与 Salesforce CEO Marc Benioff 的合作中学到不少。比如你可以赚到钱，也仍然可以与购买你产品的人建立信任。有意思的是，无论是当初创办MetaMind，还是后来创立，都可以看到 Marc Benioff 的投资身影。
　　为了重新调整对搜索引擎的期望，还推出了一款与 OpenAI 合作构建的搜索应用程序 YouWrite，该应用程序会在出现提示时生成文本片段——甚至是文档。索切尔称其为「个人 AI 作家」。
　　
　　YouWrite根据提示生成文本
　　最近，索切尔接受了硅谷知名投资机构 a16z 合伙人、编辑Derrick Harris的采访。这次采访中，索切尔谈论了许多话题，包括过去十年中，人工智能初创公司情况发生了怎样的变化；在初创公司、企业和学术界做人工智能的区别，以及新的机器学习技术（如 Transformer 模型）如何使公司能够用过去所需资源的一小部分来构建先进的产品。其对下一代 AI 产品设计的可控性、可信赖元素的强调，均可在采访中找到阐述。以下是采访正文。
　　
　　对于人工智能研究人员(学生和教授)来说，从学术界转到初创公司似乎是一个常见的做法，就像你做的那样。在今天，这两个世界有什么关键区别?
　　在学术界，人们仍在努力向人工智能可以产生影响的新领域前进，有些人希望在AGI（通用人工智能）方面取得进展。我认为有两个激动人心的新领域的例子，一个是蛋白质结构，也就是蛋白质或氨基酸序列方面，另一个是对经济学的影响。后者对世界来说非常重要，但 AI 的影响并没有我认为的那么大。
　　与此同时，对于初创公司来说，如果你有很多数据，流程也主要依赖于已经看到的数据，基本上可以说「我们知道它是如何运作的。」比如，你有一张放射图像，试着确定这骨头断了吗?或者有一个头部 CT 扫描，你要试着确定是否有颅内出血或脑出血?或者从病理图像中对不同种类的癌症进行分类。
　　所有这些应用的流程序列已经相对完善，即：识别问题并为其收集数据，在此基础上训练一个大型神经网络，然后优化和自动化流程中的部分或全部。
　　有了这个经过验证的方法，你就能产生很大的影响。这与我们在电力方面所看到的情况类似：一旦掌握电力的基本原理，只要把它提供给一个以前只有油灯和火的城镇，就可以产生很大的影响。
　　这是可能的，部分是因为在过去的10年里已经发展出了许多有趣和重要的想法。以前不可能实现的事情，现在变得可能。比如让人工智能编写相当长的文本。一个主要的变化是，不仅仅是图像，所有的数据本质上都是矢量。所有东西都是一个数字列表，这个数字列表可以作为一个大型神经网络的输入，在上面训练任何你想训练的东西。
　　还有很多有趣和重要的算法改进（更不用说更多数据和更多计算性能了)。但是端到端学习（深度学习的一个重要思想就是「端到端」学习方式，属表示学习的一种，也是这深度学习区别于其他机器学习算法的非常重要的一个方面。译者注）是一个非常重要的思想，它改变了很多事情。
　　从初创公司到大型企业的转变呢？这似乎是一把双刃剑，预算可能更多，但限制也更多……
　　两者在很多方面都不同，我只提两个例子。
　　如果AI工具初创发现很多公司都花费比如四分之一的开发人员围绕某一流程构建产品，而其中某部分或者环节要花费一到两个开发人员，他们就有可能在2B领域获得成功。这也是为什么许多AI工具初创都在帮助开发人员对付这些让人不太愉快的部分。
　　而要做到这一点，最好的方法是让客户仍然觉得自己在构建和控制人工智能，尽管实际上需要合作伙伴帮助标注数据、研究数据偏差。（比如）他们首先要收集数据，通过 Huggingface（一家在 NLP 社区做出杰出贡献的纽约创业公司，提供了大量预训练模型和代码等资源——译者注）实现模型，借助 Weights &Biases （一个可帮助数据科学家跟踪他们的模型、数据集、系统信息等的平台——译者注）训练模型时扩展模型分析，并通过 ZenML （一种可扩展的机器学习框架——译者注）部署模型。
　　（算下来）虽然依赖10-15个外部支援，但相对于围绕某个特定AI模型重复造轮子来说，这样能够更快、更可扩展、更准确地训练 AI。找到类似各种各样已经存在但又缺乏高度专业性、需要专业团队聚焦的某些特定方面或者环节，是创业公司的一大乐事。
　　但在像 Salesforce 这样的大公司，你主要考虑的是什么能够真正改变许多不同客户的需求。如何帮助那些已经在您系统中的客户使用他们的数据集，以一种他们仍然觉得(实际上也确实)拥有控制权的方式？这一点很重要，因为在 Salesforce，信任是我们的第一价值。你不能只是拿每个人的数据，然后对其进行训练，因为他们拥有自己的数据，而且他们为存储付费。因此，你还需要与客户合作，努力让他们的人工智能项目起步。
　　所以，企业软件供应商担心的是客户支付了很多钱，你就不能以试验新功能的名义来破坏工作？
　　这是部分原因。但可能更重要的是，你必须确保它是可信、易于使用，并且可以跨越所有这些不同的用例，而且服务的成本仍然相对较低。如果是一个像 Salesforce这样的平台公司，你也不能只建立一个分类器，还必须让所有客户建立他们自己的分类器，这也伴随着各种有趣和困难的技术挑战。
　　企业预算如何改变公司处境？
　　最大的区别是，当公司规模越来越大时，就可以而且应该进一步展望未来，做更多有趣的研究工作，这实际上与学术界有更大的重叠。因为你可能会在两三年内被打乱，而你又有足够的空间去思考四五年后的未来。所以需要预测一下接下来会发生什么。
　　因此，作为一家大公司的 AI 研究人员，你可以奢侈地去思考和构建一些东西，而在初创公司，你需要构建人们现在想要的东西，它还需要非常好，并在合理的时间范围内发货。这就是最大的不同——绝大多数初创公司都在从事应用，应用程序和人工智能，而不是基础研究；大公司可以两者兼得。
　　当你谈论 B2B 初创时，提到的很多东西，我们可以称之为横向应用（ horizontal applications ）。为什么你认为这些在今天被证明是成功的，而情况并非总是如此？
　　总有一些非常有用的垂直 AI 应用程序，但有一个短暂的阶段，我们认为横向的平台可能会起作用。其实，早期的人工智能平台初创公司就承担了太多不同的任务。
　　例如，我们在 MetaMind 构建了一些技术，你可以将一些文本或图像拖放到 Web 浏览器，拥有一个完全可扩展的系统来对这些文档进行分类。某种程度上，这确实有些古早，因为这都发生在前 TensorFlow 、 PyTorch 时代。你必须从头实现所有这些神经网络及其细节，也几乎没有什么开发工具。现在，情况已经发生了显著变化。
　　我们在 MetaMind 中构建了所有这些东西——标注、错误分析、部署、建模、如何训练模型分析。有趣的是，如果每个部分都有一个专注于此的独立公司，现在他们中的每一家都比 MetaMind 更值钱。
　　我认为，大多数公司和开发人员都希望自己通盘掌控 AI，但他们可以放弃其中独立的较小部分，如果编写这部分代码实际上并不那么令人兴奋。所以，需要找到一种有趣的方式，在乐趣和让每个人都感到掌控感之间找到平衡。既然初创公司负责提供机器学习工具，你就不能剥夺太多用户的掌控感。
　　网络和模型的进化如何改变了人们对创办公司或构建人工智能产品的看法？
　　我实际上并不认为特定模型对如何创办公司有很大的改变。但我认为，某些模型目前更高效，因为它们能更好地处理我们拥有的硬件。我们并不真正受大脑、理论或原则启发——而是受 GPU 启发。我们的灵感主要来自在 GPU 上运行良好的东西。当前流行的模型 Transformers，对于 GPU 来说就非常有效，可以非常有效地进行训练。
　　对于硬件初创公司来说，这确实改变了一些事情。他们看着英伟达和其他一些大公司，然后说「嗯，必须有某种方法来分一杯羹。」我们也因此会看到一些创新。（不过）与此同时，他们真的很难扩展，因为对于绝大多数用例来说，他们的特殊硬件必须出现在大型云提供商之一当中。
　　当然，整个 AI 开发堆栈在过去 8 年中已经成熟了很多。遥想当年，如果你希望它更快，就必须从头开始用 C++ 实现所有内容，这非常慢。人们需要很长时间才能加快速度和学习。而现在，所有这些复杂性都可以被抽象出来，你可以使用我们之前讨论过的产品，这使得构建高质量的人工智能系统变得更快、更方便、更容易。
　　但是算法的进步确实让局面有很大不同，对吧？例如，在隐私方面很重要，这也是你可以优先考虑用更少数据做更多事情的原因之一。
　　这是一个很好的问题，而且绝对正确。如果 5 或 10 年前想要建立一家搜索引擎公司与 Google 竞争，会非常困难，而且基本上不可能，因为需要数百人和大量训练数据来构建我们正在建立的排名系统。现在，一个非常小的团队（尽管小，但非常聪明也很有能力）就能构建一个排名系统，对你在搜索引擎中输入的任意意图和查询进行排名，并提供正确的应用程序、资源集合。
　　像这样的小公司可以与谷歌这样的大公司竞争，唯一的原因在于我们在人工智能方面看到了进步，特别是涉及无监督学习和迁移学习时。你可以在维基百科、Common Crawl（一个非营利组织，利用自己的网络爬虫收集了十亿级别的网页数据，任何人都可以免费访问，研究人员和企业家就可以在谷歌级别的数据上进行新的尝试和探索，新的创业机会也油然而生。——译者注）以及所有你能找到的网络文本上训练非常大的神经网络。（也要记住，并不是所有网络上的东西都能用于训练很好的人工智能）。
　　我们可以利用这些资源训练无监督模型，比如预测句子中的下一个单词。「我去了南加州，很享受……」，如果对语言和世界很了解，就会预测到下一个词可能是「海滩」、「沙漠」，或者任何在南加州能够享受到的东西。但预测的前提是你必须具备大量的知识。而训练一个模型来预测几百万甚至几十亿单词序列的下一个单词，一开始也需要整合所有这些背景知识。
　　这就涉及无监督学习，没有人坐在那里给你标记好下一个单词是什么。只有维基百科，模型可以从里面学到很多正确排序的单词表达。
　　这个想法很牛逼，你只需根据任务目标对大型 NLP 模型稍加修改即可让其完成任务。它能超越特定、小规模标记数据，进行更为广泛的泛化，因为他们拥有知识感；他们知道「我附近最好的泰国餐馆」与「我所在地区最好的东南亚餐馆」非常相似，尽管训练数据中从未有过这个特定的短语，但我们的神经网络和排名系统可以做到这一点，因为它们知道这些短语是相似的。
　　说到搜索，我注意到很重要的一点，就是总结（搜索）结果的方式，这是源自用户页面设计的需求，张三李四随时随地都可以做到？还是得益于机器学习技术的进步才能以这种方式处理搜索结果？
　　虽然听起来不那么酷，但摘要实际上是最难的人工智能任务之一，尤其是在自然语言处理中，原因有很多也有趣。原因之一，摘要是个非常个性化的任务，我知道你（摘要的接收者）知道什么，我就可以为你提供更好、更准确的摘要结果。
　　比如，如果你不知道什么是词向量，你就很难理解 Transformers（ Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。——译者注）。为此，你首先需要了解词向量的基础知识。如果你已经知道什么是 transformers，那摘要就会变得很简洁，比如，「他们正在用语言建模而不是机器翻译来训练它，这是一个更好的目标函数。」
　　而且我认为摘要是一个重要的技术趋势，未来几年，随着你的时间越来越宝贵，需要简单工具帮助你完成一些工作，越来越多的人会在喜欢上它，而不是被那些卖广告的公司所吸引，他们不想帮助你完成工作，而是帮助你查看更多内容，以便展示更多广告。
　　我们不赞同这一点，摘要（技术）是其中很重要的一部分，它可以帮助用户少做些搜索多完成工作，或者少搜索，多写些代码。我们的应用程序包含有代码片段，你可以复制和粘贴，通常都是正确的摘要。如果正在搜索「如何在 Python 中对字典排序」，答案不是一长串文本，而只是一个代码片段。或者，当我们向您展示一篇论文时，有一个指向实现该论文的开源版本的 GitHub 存储库的链接。
　　我认为,下一代搜索引擎从根本上是基于不同的价值观，也是不同的商业模式。
　　鉴于我们已经讨论过的所有进展，对于那些希望立即进入 AI 领域的人，你有什么建议？要做的事情或需要学习的技能是什么？
　　这在很大程度上取决于他们的年龄、技能、时间投入以及想进入的领域。如果你还年轻，未来也想以此为业，你仍然需要学习编程基础、数学、统计学和一些概率知识，很多线性代数等等。
　　如果你已经上班，也想进入这个领域，有大量令人兴奋的新在线课程、视频和平台，供你深入学习。现在有这么多的材料，连斯坦福 CS224 NLP 课程也有，这就是我鼓励人们去做的事情。
　　一旦完成了这些，接下来就是要动手实践了，写程序或者玩模型，顺便想想目前还有哪些流程或者任务是靠手动的，或者处在半机械半人工状态？你能做些与众不同的东西，尝试自动化它们吗？
　　较之真正理解这些模型是如何工作，仅满足于使用云API和不同水平的抽象化（abstraction）能让你走多远?
　　这完全取决于你的背景。如果受过高等教育，有数学方面的背景，你可以很快掌握一些基础知识，直接跳到构建真实模型的阶段，而不需要从头开始。不过，越依赖抽象化，可能就越难以做一些真正有创造性的工作，也很难理解如何修复错误，解决性能问题。
　　但在许多用例中，您也没必要创新。比如，你可能只是想要一个自动喷水灭火系统，因此，你只想回答：「有人站在这里吗？是还是不是。」如果没有，请打开自动喷水灭火系统，不需要为此发明任何创新性的东西，只需要执行所有正确的标准步骤并为图像分类器使用好的工具。
　　但是，抽象化仍然存在漏洞，也并不完美。因此，应用程序越重要——它对你的公司、受影响的用户或你的职业越重要——你就越希望拥有深入了解这些系统的专家，知道如何修复某些错误或性能问题的专家，以及思考人工智能系统如何影响人们的人。只有这样，你才能真正以安全、最大限度发挥积极影响的方式自动化某些流程。
　　
　　参考链接：查看全部

　　狙击谷歌搜索
　　

　　下一代搜索引擎从根本上会基于不同的价值观（可控、可信赖），采取不同的商业模式。近十年人工智能技术的发展，使得小公司颠覆搜索巨头成为可能。
　　编译 |吴昕
　　来源 |a16z
　　二十年来，搜索引擎设计或商业模式没有任何重大创新。
　　相信很多人早已厌倦充斥广告、商业泛滥的搜索，但更习惯于「忍忍就过去了」的将就。对于收割「羊群」注意力的商业手腕儿，哥伦比亚大学法学院教授 Tim Wu 在《注意力经济》一书中早已做了详尽描述。靠着广告费支撑着各种免费产品，占据数据撒哈拉的搜索巨头自然希望安于现状，但可供指望的「救星」又屈指可数。至少 5 或 10 年前想要建立一家搜索引擎公司与谷歌竞争，会非常困难，而且基本上不可能，因为需要数百人和大量训练数据。
　　不过最近几年，情况有所改变。就巨头们而言，随着各自赖以起家的核心业务走到巅峰，为了支持超高市值，他们开始迈入已知巨大市场，相互踩踏，比如搜索。
　　微软必应自然希望多一些市场份额。坐拥庞大电商平台和商家的亚马逊为什么不让用户直接从「自己花园」里开始搜索而一直要做谷歌的大客户？苹果直接高调挖走谷歌搜索和AI负责人。Siri基本上就是一个搜索引擎，通过回答用户提出的问题，可以帮苹果获得可观收益。虽然大打隐私牌的苹果似乎不想直接从广告挣钱，但用户还是难断定巨头们涉足搜索不过是另一轮「圈地运动」、收割流量的代名词。
　　在构建根本不同的东西、借由「创新者的窘境」式游戏来削弱谷歌搜索的路上，绝大多数创业公司被寄予希望，却总显得孤独寂寞。但也有例外。2021年，理查德·索切尔（Richard Socher）创立新公司，进军搜索领域。这是一个无广告、保护隐私的搜索引擎。
　　

　　Socher 曾在推特上发问，具有什么样功能的搜索引擎会让你放弃谷歌? KK的回复是：没有广告；付费订阅。
　　一直关注人工智能领域的中国读者一定很熟悉这个名字。索切尔曾于2014 年创办了 MetaMind，后被 Salesforce 收购。索切尔的优秀履历也再添一份精彩：Salesforce 首席科学家和执行副总裁。
　　这位曾被世界经济论坛称为「人工智能神童之一」的后起之秀，于2014年在斯坦福大学计算机系获得博士学位，也是组建 ImageNet 团队成员之一，曾与 Chris Manning、吴恩达一起研究深度学习。不过，他并不眷恋纯粹的学术研究，毕业后即创业（成立 MetaMind ）。他认为，拥有工程资源、让AI真正发挥作用可能更为重要。
　　自2012年深度学习革命爆发以来，理查德·索切尔就一直在参与其中，从事深度学习和摘要技术（Summarization）的研究。最近十年，人工智能领域发生了巨大的变化，特别是深度学习、无监督、半监督和迁移学习的激增使得像这样的小公司可以与谷歌对抗，而充满杂乱广告链接、隐私体验欠佳的搜索引擎成为这些重要技术的最佳应用场景。索切尔认为，摘要技术不仅是信息时代的一项基础技术，也是注意力经济的一种解决方案。
　　现在是启动新搜索引擎的最佳时机。他们利用自然语言处理（NLP）来理解理解查询意图，对搜索结果进行排名，并将人类语言语义解析为不同 API 的计算机语言。平台汇总了来自网络的信息，并且可以通过内置的搜索应用程序进行扩展，例如 Yelp 和 Twitter 的应用程序，用户无需离开结果页面即可完成搜索任务。让用户从多个不同角度探索一个主题。
　　

　　输入Briney Spears ，的页面显示。
　　索切尔希望建立一个真正以消费者为中心的搜索工具，该工具不依赖广告和对用户的了解。这个工具可以帮助你研究、总结网页信息，获得一些真正有价值的信息。
　　对工具可信赖、可控的强调，可能也与他这几年的工作体验有关。他承认，在与 Salesforce CEO Marc Benioff 的合作中学到不少。比如你可以赚到钱，也仍然可以与购买你产品的人建立信任。有意思的是，无论是当初创办MetaMind，还是后来创立，都可以看到 Marc Benioff 的投资身影。
　　为了重新调整对搜索引擎的期望，还推出了一款与 OpenAI 合作构建的搜索应用程序 YouWrite，该应用程序会在出现提示时生成文本片段——甚至是文档。索切尔称其为「个人 AI 作家」。
　　

　　YouWrite根据提示生成文本
　　最近，索切尔接受了硅谷知名投资机构 a16z 合伙人、编辑Derrick Harris的采访。这次采访中，索切尔谈论了许多话题，包括过去十年中，人工智能初创公司情况发生了怎样的变化；在初创公司、企业和学术界做人工智能的区别，以及新的机器学习技术（如 Transformer 模型）如何使公司能够用过去所需资源的一小部分来构建先进的产品。其对下一代 AI 产品设计的可控性、可信赖元素的强调，均可在采访中找到阐述。以下是采访正文。
　　

　　对于人工智能研究人员(学生和教授)来说，从学术界转到初创公司似乎是一个常见的做法，就像你做的那样。在今天，这两个世界有什么关键区别?
　　在学术界，人们仍在努力向人工智能可以产生影响的新领域前进，有些人希望在AGI（通用人工智能）方面取得进展。我认为有两个激动人心的新领域的例子，一个是蛋白质结构，也就是蛋白质或氨基酸序列方面，另一个是对经济学的影响。后者对世界来说非常重要，但 AI 的影响并没有我认为的那么大。
　　与此同时，对于初创公司来说，如果你有很多数据，流程也主要依赖于已经看到的数据，基本上可以说「我们知道它是如何运作的。」比如，你有一张放射图像，试着确定这骨头断了吗?或者有一个头部 CT 扫描，你要试着确定是否有颅内出血或脑出血?或者从病理图像中对不同种类的癌症进行分类。
　　所有这些应用的流程序列已经相对完善，即：识别问题并为其收集数据，在此基础上训练一个大型神经网络，然后优化和自动化流程中的部分或全部。
　　有了这个经过验证的方法，你就能产生很大的影响。这与我们在电力方面所看到的情况类似：一旦掌握电力的基本原理，只要把它提供给一个以前只有油灯和火的城镇，就可以产生很大的影响。
　　这是可能的，部分是因为在过去的10年里已经发展出了许多有趣和重要的想法。以前不可能实现的事情，现在变得可能。比如让人工智能编写相当长的文本。一个主要的变化是，不仅仅是图像，所有的数据本质上都是矢量。所有东西都是一个数字列表，这个数字列表可以作为一个大型神经网络的输入，在上面训练任何你想训练的东西。
　　还有很多有趣和重要的算法改进（更不用说更多数据和更多计算性能了)。但是端到端学习（深度学习的一个重要思想就是「端到端」学习方式，属表示学习的一种，也是这深度学习区别于其他机器学习算法的非常重要的一个方面。译者注）是一个非常重要的思想，它改变了很多事情。
　　从初创公司到大型企业的转变呢？这似乎是一把双刃剑，预算可能更多，但限制也更多……
　　两者在很多方面都不同，我只提两个例子。
　　如果AI工具初创发现很多公司都花费比如四分之一的开发人员围绕某一流程构建产品，而其中某部分或者环节要花费一到两个开发人员，他们就有可能在2B领域获得成功。这也是为什么许多AI工具初创都在帮助开发人员对付这些让人不太愉快的部分。
　　而要做到这一点，最好的方法是让客户仍然觉得自己在构建和控制人工智能，尽管实际上需要合作伙伴帮助标注数据、研究数据偏差。（比如）他们首先要收集数据，通过 Huggingface（一家在 NLP 社区做出杰出贡献的纽约创业公司，提供了大量预训练模型和代码等资源——译者注）实现模型，借助 Weights &Biases （一个可帮助数据科学家跟踪他们的模型、数据集、系统信息等的平台——译者注）训练模型时扩展模型分析，并通过 ZenML （一种可扩展的机器学习框架——译者注）部署模型。
　　（算下来）虽然依赖10-15个外部支援，但相对于围绕某个特定AI模型重复造轮子来说，这样能够更快、更可扩展、更准确地训练 AI。找到类似各种各样已经存在但又缺乏高度专业性、需要专业团队聚焦的某些特定方面或者环节，是创业公司的一大乐事。
　　但在像 Salesforce 这样的大公司，你主要考虑的是什么能够真正改变许多不同客户的需求。如何帮助那些已经在您系统中的客户使用他们的数据集，以一种他们仍然觉得(实际上也确实)拥有控制权的方式？这一点很重要，因为在 Salesforce，信任是我们的第一价值。你不能只是拿每个人的数据，然后对其进行训练，因为他们拥有自己的数据，而且他们为存储付费。因此，你还需要与客户合作，努力让他们的人工智能项目起步。
　　所以，企业软件供应商担心的是客户支付了很多钱，你就不能以试验新功能的名义来破坏工作？
　　这是部分原因。但可能更重要的是，你必须确保它是可信、易于使用，并且可以跨越所有这些不同的用例，而且服务的成本仍然相对较低。如果是一个像 Salesforce这样的平台公司，你也不能只建立一个分类器，还必须让所有客户建立他们自己的分类器，这也伴随着各种有趣和困难的技术挑战。
　　企业预算如何改变公司处境？
　　最大的区别是，当公司规模越来越大时，就可以而且应该进一步展望未来，做更多有趣的研究工作，这实际上与学术界有更大的重叠。因为你可能会在两三年内被打乱，而你又有足够的空间去思考四五年后的未来。所以需要预测一下接下来会发生什么。
　　因此，作为一家大公司的 AI 研究人员，你可以奢侈地去思考和构建一些东西，而在初创公司，你需要构建人们现在想要的东西，它还需要非常好，并在合理的时间范围内发货。这就是最大的不同——绝大多数初创公司都在从事应用，应用程序和人工智能，而不是基础研究；大公司可以两者兼得。
　　当你谈论 B2B 初创时，提到的很多东西，我们可以称之为横向应用（ horizontal applications ）。为什么你认为这些在今天被证明是成功的，而情况并非总是如此？
　　总有一些非常有用的垂直 AI 应用程序，但有一个短暂的阶段，我们认为横向的平台可能会起作用。其实，早期的人工智能平台初创公司就承担了太多不同的任务。
　　例如，我们在 MetaMind 构建了一些技术，你可以将一些文本或图像拖放到 Web 浏览器，拥有一个完全可扩展的系统来对这些文档进行分类。某种程度上，这确实有些古早，因为这都发生在前 TensorFlow 、 PyTorch 时代。你必须从头实现所有这些神经网络及其细节，也几乎没有什么开发工具。现在，情况已经发生了显著变化。
　　我们在 MetaMind 中构建了所有这些东西——标注、错误分析、部署、建模、如何训练模型分析。有趣的是，如果每个部分都有一个专注于此的独立公司，现在他们中的每一家都比 MetaMind 更值钱。
　　我认为，大多数公司和开发人员都希望自己通盘掌控 AI，但他们可以放弃其中独立的较小部分，如果编写这部分代码实际上并不那么令人兴奋。所以，需要找到一种有趣的方式，在乐趣和让每个人都感到掌控感之间找到平衡。既然初创公司负责提供机器学习工具，你就不能剥夺太多用户的掌控感。
　　网络和模型的进化如何改变了人们对创办公司或构建人工智能产品的看法？
　　我实际上并不认为特定模型对如何创办公司有很大的改变。但我认为，某些模型目前更高效，因为它们能更好地处理我们拥有的硬件。我们并不真正受大脑、理论或原则启发——而是受 GPU 启发。我们的灵感主要来自在 GPU 上运行良好的东西。当前流行的模型 Transformers，对于 GPU 来说就非常有效，可以非常有效地进行训练。
　　对于硬件初创公司来说，这确实改变了一些事情。他们看着英伟达和其他一些大公司，然后说「嗯，必须有某种方法来分一杯羹。」我们也因此会看到一些创新。（不过）与此同时，他们真的很难扩展，因为对于绝大多数用例来说，他们的特殊硬件必须出现在大型云提供商之一当中。
　　当然，整个 AI 开发堆栈在过去 8 年中已经成熟了很多。遥想当年，如果你希望它更快，就必须从头开始用 C++ 实现所有内容，这非常慢。人们需要很长时间才能加快速度和学习。而现在，所有这些复杂性都可以被抽象出来，你可以使用我们之前讨论过的产品，这使得构建高质量的人工智能系统变得更快、更方便、更容易。
　　但是算法的进步确实让局面有很大不同，对吧？例如，在隐私方面很重要，这也是你可以优先考虑用更少数据做更多事情的原因之一。
　　这是一个很好的问题，而且绝对正确。如果 5 或 10 年前想要建立一家搜索引擎公司与 Google 竞争，会非常困难，而且基本上不可能，因为需要数百人和大量训练数据来构建我们正在建立的排名系统。现在，一个非常小的团队（尽管小，但非常聪明也很有能力）就能构建一个排名系统，对你在搜索引擎中输入的任意意图和查询进行排名，并提供正确的应用程序、资源集合。
　　像这样的小公司可以与谷歌这样的大公司竞争，唯一的原因在于我们在人工智能方面看到了进步，特别是涉及无监督学习和迁移学习时。你可以在维基百科、Common Crawl（一个非营利组织，利用自己的网络爬虫收集了十亿级别的网页数据，任何人都可以免费访问，研究人员和企业家就可以在谷歌级别的数据上进行新的尝试和探索，新的创业机会也油然而生。——译者注）以及所有你能找到的网络文本上训练非常大的神经网络。（也要记住，并不是所有网络上的东西都能用于训练很好的人工智能）。
　　我们可以利用这些资源训练无监督模型，比如预测句子中的下一个单词。「我去了南加州，很享受……」，如果对语言和世界很了解，就会预测到下一个词可能是「海滩」、「沙漠」，或者任何在南加州能够享受到的东西。但预测的前提是你必须具备大量的知识。而训练一个模型来预测几百万甚至几十亿单词序列的下一个单词，一开始也需要整合所有这些背景知识。
　　这就涉及无监督学习，没有人坐在那里给你标记好下一个单词是什么。只有维基百科，模型可以从里面学到很多正确排序的单词表达。
　　这个想法很牛逼，你只需根据任务目标对大型 NLP 模型稍加修改即可让其完成任务。它能超越特定、小规模标记数据，进行更为广泛的泛化，因为他们拥有知识感；他们知道「我附近最好的泰国餐馆」与「我所在地区最好的东南亚餐馆」非常相似，尽管训练数据中从未有过这个特定的短语，但我们的神经网络和排名系统可以做到这一点，因为它们知道这些短语是相似的。
　　说到搜索，我注意到很重要的一点，就是总结（搜索）结果的方式，这是源自用户页面设计的需求，张三李四随时随地都可以做到？还是得益于机器学习技术的进步才能以这种方式处理搜索结果？
　　虽然听起来不那么酷，但摘要实际上是最难的人工智能任务之一，尤其是在自然语言处理中，原因有很多也有趣。原因之一，摘要是个非常个性化的任务，我知道你（摘要的接收者）知道什么，我就可以为你提供更好、更准确的摘要结果。
　　比如，如果你不知道什么是词向量，你就很难理解 Transformers（ Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。——译者注）。为此，你首先需要了解词向量的基础知识。如果你已经知道什么是 transformers，那摘要就会变得很简洁，比如，「他们正在用语言建模而不是机器翻译来训练它，这是一个更好的目标函数。」
　　而且我认为摘要是一个重要的技术趋势，未来几年，随着你的时间越来越宝贵，需要简单工具帮助你完成一些工作，越来越多的人会在喜欢上它，而不是被那些卖广告的公司所吸引，他们不想帮助你完成工作，而是帮助你查看更多内容，以便展示更多广告。
　　我们不赞同这一点，摘要（技术）是其中很重要的一部分，它可以帮助用户少做些搜索多完成工作，或者少搜索，多写些代码。我们的应用程序包含有代码片段，你可以复制和粘贴，通常都是正确的摘要。如果正在搜索「如何在 Python 中对字典排序」，答案不是一长串文本，而只是一个代码片段。或者，当我们向您展示一篇论文时，有一个指向实现该论文的开源版本的 GitHub 存储库的链接。
　　我认为,下一代搜索引擎从根本上是基于不同的价值观，也是不同的商业模式。
　　鉴于我们已经讨论过的所有进展，对于那些希望立即进入 AI 领域的人，你有什么建议？要做的事情或需要学习的技能是什么？
　　这在很大程度上取决于他们的年龄、技能、时间投入以及想进入的领域。如果你还年轻，未来也想以此为业，你仍然需要学习编程基础、数学、统计学和一些概率知识，很多线性代数等等。
　　如果你已经上班，也想进入这个领域，有大量令人兴奋的新在线课程、视频和平台，供你深入学习。现在有这么多的材料，连斯坦福 CS224 NLP 课程也有，这就是我鼓励人们去做的事情。
　　一旦完成了这些，接下来就是要动手实践了，写程序或者玩模型，顺便想想目前还有哪些流程或者任务是靠手动的，或者处在半机械半人工状态？你能做些与众不同的东西，尝试自动化它们吗？
　　较之真正理解这些模型是如何工作，仅满足于使用云API和不同水平的抽象化（abstraction）能让你走多远?
　　这完全取决于你的背景。如果受过高等教育，有数学方面的背景，你可以很快掌握一些基础知识，直接跳到构建真实模型的阶段，而不需要从头开始。不过，越依赖抽象化，可能就越难以做一些真正有创造性的工作，也很难理解如何修复错误，解决性能问题。
　　但在许多用例中，您也没必要创新。比如，你可能只是想要一个自动喷水灭火系统，因此，你只想回答：「有人站在这里吗？是还是不是。」如果没有，请打开自动喷水灭火系统，不需要为此发明任何创新性的东西，只需要执行所有正确的标准步骤并为图像分类器使用好的工具。
　　但是，抽象化仍然存在漏洞，也并不完美。因此，应用程序越重要——它对你的公司、受影响的用户或你的职业越重要——你就越希望拥有深入了解这些系统的专家，知道如何修复某些错误或性能问题的专家，以及思考人工智能系统如何影响人们的人。只有这样，你才能真正以安全、最大限度发挥积极影响的方式自动化某些流程。