采集的文章和关键词不符(关于中文分词:1.中文难度分析(一)_)

优采云 发布时间: 2021-12-21 16:02

  采集的文章和关键词不符(关于中文分词:1.中文难度分析(一)_)

  一、关于中文分词:

  1.中文分词难度分析

  首先要说明的是,普通用户的搜索习惯与SEO甚至更熟悉的网络搜索用户的搜索习惯有很大不同,而恰巧普通搜索用户是百度搜索的基本力量。开头重复这一点,是蒋新鹏在百度搜索算法中对中文分词的重视。因为,对于百度、谷歌等二代搜索引擎,所采用的搜索技术主要是靠关键词匹配,用户对关键词的理解和机器程序对关键词的理解有距离很大。

  在中文分词方面,百度胜过谷歌。这是百度战胜谷歌的关键因素之一。中文分词比英文复杂得多。(和中文分词一样麻烦的重要语言还有日语、韩语、俄语等等,谷歌之所以在这些领域都赢不了是一)。蒋新鹏就不深入了因篇幅在此详述,有兴趣的朋友可以研究一下拉丁文(以英文为例)句和中文句的区别。除主语、谓语、感叹词等外的确定副词)。

  

  一个简单的例子是“百度排名如何”、“百度排名如何”、“百度排名如何”、“百度排名如何”、“百度排名如何”、“百度排名如何”、“百度排名如何” rank”,以及百度靠什么排名“”“百度的搜索排名如何”……这几个词组和短句至少收录一个意思“百度搜索结果的排名规则是什么(原理)”,此外,每个句子都有其他例如,这些句子还包括“如何做百度排名(实现这个目标的方法)”和“百度如何进行搜索排名(原理实现的过程)”……

  以上面的例子:当用户输入上面的短句时(在大多数情况下,普通用户将百度视为灵丹妙药,所以通过SEO搜索这种不受监管的搜索行为),百度必须快速响应用户需要的结果,此时时间,百度的核心问题是:

  A、首先要知道用户在搜索什么(语义分析,见“2”);

  B、其次,由于百度的搜索方式还是以关键词匹配技术为主,所以需要对用户的搜索进行细分(下一段会分析百度是如何细分的);

  C、然后百度会根据分词结果检索数据库中匹配的快照;

  D、最后一步只是取回,还要对第四部分进行排名。这时候挑战百度已经不是问题了(虽然从SEO的角度来看,这一步确实很难)

  E、第五步,将得到的结果返回到搜索页面供用户使用,并完成其广告的投放(百度竞价广告),并妥善推广其产品(Baidu Know、百度文库...)对于混乱,SEO顾问蒋新鹏为没有找到更好的表达方式表示歉意。希望朋友们组织起来,发扬光大。

  2.百度中文分词方法:

  百度的中文分词不仅是大量的用户搜索(这个和谷歌不一样,毕竟百度植根于中国文化,对中文有更好的理解),还有庞大的中文词典库做支撑,并动态添加搜索热词、搜索行为和造词技术,【从最近对百度算法的调整来看,百度比以往更加尊重用户的搜索行为,即用户输入是第一要务,百度修正是次要的。这个很重要。] 比如用户搜索“百度排名如何?”时的分词。

  A. 自然切分:包括由标点和空格引起的切分。这是首要因素。例如,“百度如何排名”等搜索行为会被百度分为“百度”和“如何排名”。这是肯定的。,要了解用户的搜索行为,首先要尊重用户的搜索行为;(这是SEO顾问蒋新鹏根据实战观察总结的,很多SEO朋友可能没有注意到,所以在这里提醒一下)

  B. 中文词库切分:不难理解,“百度排名如何”会分为“百度”、“如何”、“排名”这三个词,因为这些词在中文词典中都是存在的,而百度有庞大的中文词典库支持,这个不难;

  C.分词结合分词:B中的分词显然不够。为了更好地理解用户的意图,必须保证语义的连贯性,然后将这三个词组合成“百度排名如何”;“百度怎么样”+“排名”;“百度排名”+“如何”;“如何排名”+“百度”这几个词的组合倒过来,重要的是按照顺序在先的原则,其次是逆序和双向序列分词的组合,分析分词有一个basic 原则是最少分割。

  以上三点是通常意义上的分词。此外,还有更多麻烦的分词需要百度来处理。请参阅以下几点。

  D.分词:如果用户搜索“百度排名如何”,百度很无奈,因为你分不清用户在搜索“百度排名如何”,你要尊重用户的搜索行为,所以你要进一步翻译中文分词:“白”、“度”、“如”、“他”、“排位”,然后结合分词形成不同的词组在数据库中进行匹配。

  E. 非拼音字符/错别字:如果有人搜索“如何对白度进行排名”,实际上将“百度”错误输入为“白度”,那么百度必须纠正这种错误,但根据最近的调整,百度没有就像之前通过词库的相似匹配进行纠错【更多的是准备通过用户搜索后浏览行为积累的数据进行纠错】(比如很多搜索“白度”的用户最终在“ “百度”关键词页面,那么百度以后在“白度”的搜索纠错中会重点关注“百度”!

  当然,这个词是蒋新鹏的一个例子。其实百度搜索“白度”并不是这样的。举例请参考百度的“美标车”。百度会提示或者说测试你。“车”)。另外,为了纠错,百度在搜索下拉框中使用了相关词推荐,搜索页面底部的“相关搜索”,百度知道(大量用户,是百度搜索的重要补充) ) 对纠错数据进行统计和纠正。错误的引导。

  F. 新词:新词的来源一般有两种: a.由于近期流行语,本百度库将根据用户搜索行为积累的数据和网络热词监测数据,对词库进行调整和补充;湾 语言新词/用户自创词,这主要是基于搜索行为积累的数据调整,也辅以一些语言新词的工作。

  蒋新鹏再次补充说,百度其实很累。统计用户的每一次搜索行为(当然是机器程序记录的方式):一般主要记录搜索到的关键词、访问过的页面和访问方式(通常是链接)、在每个页面上的停留时间(以前不好读,现在百度浏览cookies,百度账号,IP记录,百度统计【如果网站安装了百度统计程序,其实百度很聪明,用各种方法输入网站 ,比如最近流行的百度分享按钮。这个工具其实是最大的*敏*感*词*】和大量的统计辅助工具)。一般的计算是根据百度提供的快照页面搜索后访问的浏览行为(先打开哪个,打开哪个,停留多长时间,

  二、关于语义分析:

  其实这一段我想说的,上一段已经提到了。列举无非是为了区分“语义分析”和“分词”的检索行为。语义分析和分词是相辅相成的,语义分析更多是基于分词和用户浏览行为数据的研究结论,如上所述,百度使用多种方法统计用户行为,并基于这些进行分词关键词 和输入法检索到的行为和统计数据。支持和分词的匹配。

  毕竟,不管怎么计算,百度每天有这么多网页和数十亿次搜索行为,仍然难以计算(百度正在努力通过不断改进方法和改进机器算法来实现这个庞大的项目)。基于热门搜索的抽样统计和其他搜索的随机统计,实现搜索语义分析(这是SEO顾问蒋新鹏基于实战观察做出的假设推论)。

  

  百度最难以捉摸的不是排名算法,而是语义分析算法,因为就像SEO不了解百度的算法一样,百度也不了解搜索用户的搜索意图(所以百度一直在研究和调整,它已经一直在改进,就像 SEO 一直在研究、调整和改进一样。)不可预测性是一个原因。更重要的是,这些计算不仅仅是单词、分词、匹配度的研究,更是统计学、线性数学、逻辑学、行为学、心理学等诸多学科的精髓。结合该方法设计算法结构,并不断修复完善。说到这个算法,百度有“海量基础算法”的描述,更不用说每个算法的难度了 s纪律本身,这就是难逼的SEO 他一直无法理解百度算法的根本原因。当然,作为一个勤奋的SEO,蒋新鹏也无法理解。如果他能看懂,他们中的大多数都是数学或计算机天才或顶尖人才。经过研究或发明,你还在追着百度找茬吗?

  更何况,百度自身也为搜索结果的“人为干预”和“垄断”带来了各种谴责。更重要的是,SEO为了自己的利益而不断排名,向用户推荐低质量的信息,所以更好地理解和理解搜索。算法高手看不起... 所以看到这里,如果你觉得你很厉害,就不要做SEO,如果作为SEO你理解作者蒋新鹏写这篇文章的意图文章,那你站在SEM或者从网络运营和网络营销的高度来看SEO,而不是为了半夜趴在电脑前做SEO。

  说的太远了,回归正题,我做不到像百度一样的设计算法的能力。如果你能从语义分析中挖掘出一些对SEO有帮助的东西,那么蒋新鹏建议你可以研究研究你正在做的优化。比如,蒋新鹏最近为上海智宝美贵汽车提供网络运营服务时,发现“美式车”这个词越来越受到关注,很多SEO或者说站长抵制“美标车”这个词”,当用户搜索该词时,可能衍生为“美标汽车”、“美标汽车SUV”、“美标汽车SUV”、“美标SUV”。“美规汽车销售”、“美规汽车经销商”、“美国

  三、关于关键词匹配:

  1.关键词分词匹配的关键序列:

  这是蒋新鹏根据SEO实际操作结合网友分享做出的总结。准确率不高,但可以作为参考。一般的分词算法是“关键词比例”:计算关键词在页面信息中的比例,通常包括参数:title(网页标题),meta description(网页描述/摘要) , Meta 关键字(网页关键词),网页 H1~H6 标签,锚文本(按焦点和页面位置排序),内容文本(字体、大小、颜色、周围背景或文字等突出显示,一般位置顺序是从左上到右下),图片等页面文件的Html标记语言属性。

  2.关键词匹配度计算:

  分词后,词组中的关键词应该是“搜索”出来的。如果某个词与词组中的其他词的相关性不大,则匹配将被删除,但其他词在计算匹配度时仍将计入词数。按“百度排名”分析:一般意义上,这个搜索词组分为“百度排名”;“如何百度”+“排名”;“百度排名”+“怎么样”……:然后是“百度排名怎么样”“匹配度100%,后面依次是“百度排名怎么样”、“百度排名怎么样”、“百度怎么样”排名”、“百度排名如何”、“百度排名如何”;“百度排名”匹配度为1/3+1/3=2/3;“如何排名”匹配度为1/2;

  3.title关键词匹配度:

  标题本身的分词匹配中关键词的计算方法与2中提到的相同。这里蒋新鹏想说明两点: A.观察推断,经过百度的收录snapshot, right 快照存档中应该已经标注了可能的分词匹配数据(如果没有,那么百度检索的效率不会那么高) B. 用户每次搜索百度,都应该进行分词执行,并且应该执行分词。结果是最大化文件快照中分词标签的匹配。

  另外,Title的识别长度一般认为不超过80个字符(包括标点和空格,相当于40个汉字左右),但从百度搜索结果的快照标题来看,百度对不同的站点会有不同的权重的限制一般是60个字符,有的站可以达到70个字符。多余的部分用“...”代替,但不代表不包括百度。在“”的情况下,当蒋新鹏添加标题时把“智宝美国SUV”放在最后,但是当你百度“智宝美国SUV”时,实际快照标题可以正常显示“智宝美国SUV”并且标题超过按段落显示。在第一段之后省略显示。

  一般如无特殊需要,建议不超过可识别的80个字符。否则,不仅会稀释关键词的匹配度,还会影响搜索引擎对快照的评分。

  【头衔技巧】说到这里,我想分享一下蒋新鹏的一点技巧。企业网站页面较少,一般容易上榜的主页面是首页,所以首页的标题一定要精心安排。如果真的把不小的关键词放在描述的顶部。另外,建议将站点名称缩写放在后面,以保证key关键词在前面,得到更好的匹配。站点名称使用“[ ]”向上,虽然浪费了4个字符,但在搜索结果中会更加突出,可以吸引用户的注意力,增加网站的人气和进入率。

  顺便说一下,蒋新鹏在他的操作中发现,如果头部标签更新过于频繁,会导致功率降级(一般修改头部后,头部会进入快照观察期,搜索结果会延迟)修改标题1~3周,根据页面内容更新和外链锚文本收录的关键词更新程度和延迟时间不同),修改header标签一个月内两次以上,百度会直接随机抓取页面上的文字作为描述摘要。对于标题经常更新的页面,谷歌会直接抓取页面布局中突出显示的某个短语作为标题。

  4.说明关键词匹配度:

  与title的计算方法类似,只是描述不会像title那样被百度分割,而是只作为title中的关键词和关键字中的关键词,以及关键词 为页面带来更多流量。@关键词的匹配计算,描述中关键词的匹配度是按照顺序优先原则,根据关键词在描述总字符中的比例和连贯性来计算的。

  描述是页面的摘要描述。SEO童鞋一定要遵守规则。页面文字中未收录的无关信息或关键词请勿堆叠,以免降低积分。

  识别的描述最大允许字符数为200,百度快照一般显示140个字符左右。蒋新鹏建议不要超过160个字符,因为这样不仅会冲淡关键词的匹配度,而且百度最近的算法调整也超过了快照的描述。显示的部分将不再与 关键词 匹配。这也是智宝美标车的解释。蒋新鹏在描述总结中把美标GMC列为最好。最近算法调整后,就不会显示了(当然可能是个例,仅供参考)。

  5.关键词关键词匹配度:

  对百度来说,关键词似乎并不匹配,但百度关心的有一点:不要在关键词中添加页面上没有的关键词。如果是这样,则可能会被视为作弊。这对于谷歌来说尤其如此,它对关键词作弊的要求比百度严格得多。

  

  一般认为关键字不超过 100 个字符。蒋新鹏明白,对于谷歌来说:关键词不能太多,一定要匹配页面,一般页面可以容忍十个以上关键词;对于百度,建议根据百度权重设计关键词(可以使用站长工具或者爱站网测)关键词。可以在关键字中添加带有权重的词。

  对于企业网站,由于标题和描述的限制,字数有限,无法容纳公司全称。这时候可以考虑在关键词中收录公司的全称和缩写,因为页面上的版权信息一般都收录公司名称和缩写。

  6.页面内容中关键词的匹配度:

  页面内容不计算分词,但是标签中的分词和快照中存档的分词会匹配页面中收录的关键词并计算出次数和字符所占的比例整个页面。部分。

  页面的关键词的重要性是H标签和其他重要的标签。当然,在百度快照中,主要还是以页面族显示的文字为标准。一般链接锚文本收录关键词,页面关键词出现在显着位置,关键词以显着方式(字体、颜色)显示会更重要。这个要根据具体的页面来分析。SEO的朋友可以在搜索关键词的结果中,直接查看百度快照中显示的关键词的匹配度。*敏*感*词*最高,其次是红色、蓝色和绿色。

  快照是存储在百度数据库中的静态网页,不是真正的网页,所以有快照更新。从快照页面的源码可以看出,百度快照只记录了页面的基本代码和文本文件,并存储了照片等文件。实际快照中的图片来自快照时的页面文件收录。调用记录的文件地址。

  百度快照的存在是大家关心百度速递更新的根本原因,因为如果快照不更新,获得排名的机会就会减少。此时,你的网站快照在百度快照数据库中。中国就像一个弃婴……此时,作者蒋新鹏再次提醒了他的观察:以前大家都认为静态页面更受搜索欢迎。随着2.0的不断发展和互联网社交化的趋势,似乎这一点正在被改写,朝着相反的方向发展。静态页面和伪静态开始被搜索程序摒弃……蒋新鹏明白,如果页面是静态的,那么搜索引擎更有可能认为您的页面内容将被更新。比较慢,自然会影响收录的频率,蜘蛛访问的频率也降低了……

  四、关键词匹配操作案例分析

  以上大致描述了SEO蒋新鹏对百度搜索中文分词语义分析、关键词匹配的理解。下面通过实例重点介绍如何将网页与关键词进行匹配。通常SEO一般接到的任务是客户/领导下到一个站,指定几个关键词,然后让他们去做,除了在head标签加关键词,很多采集 一些关键词相关的文章,剩下的好像是很多“外链制作”的工作,各种工具,一时间,包括“”在内的一堆乱七八糟的信息泛滥成灾遍布全球的大论坛、博客、商店、分类信息……(当然蒋新鹏也很粗俗,做外链也大同小异,但基本没有工具,

  其实SEO更好的做法是在进行排名优化操作之前先根据用户需求进行调查、分析和统计,然后根据客户的其他需求制定网站计划构建SEO意图网站@ >(中智传媒出品)在过程中很好的融入,让SEO不累,轻松达到理想的效果。在上面的文章中,蒋新鹏提到了上海智宝名车在役的例子。建站之初,中智传媒根据客户独家*敏*感*词*美规SUV,通过百度搜索索引、Google关键词列表、百度相关搜索推荐、站长工具,进行了更详细的统计() 据分析,根据客户主要品牌,如奔驰、宝马、奥迪、卡宴、路虎、福特、丰田、林肯、GMC等。关键词(【特别说明,关键词的策划还考虑了百度竞价竞争程度、收录页数、首页结果页快照更新程度、百度全总结确定难易程度,结合预算和工作量确定])。

  在网站设计项目中,中智传媒将产品展示栏目设计为“美国汽车频道”,将上述关键词依次分类,通过下拉菜单实现(蒋新鹏提醒:导航栏关键词的锚文本出现很重要,但是现在优化了,用户对关键词的数量要求越来越高,结合这种情况,蒋新鹏建议导航要做成一个页面,左边的列表通道【实战中发现有效,以三和彩钢为例】,再考虑最近流行的下拉列表菜单和底部的行导航页)。在首页内容有限的前提下,底部会关键词

  在标题设计上,当然首选“美标车”,其次,按照关键词的优先原则,首页标题设计为“美标车_美标奔驰,美标宝马、美标路虎、美标卡宴、美奥迪【智宝美SUV】”,因为其他几款关键词无法挤在标题里,搜索量和价值都不是很高,所以放在了描述,并在描述开头添加“,美国顶级汽车*敏*感*词*商,豪华豪华SUV美版独家经销”,显示公司名称,同时突出公司特点,体现核心关键词“美国车”,下一个“美国宝马X5X6,美国奔驰ML/GL系列、美国保时捷卡宴、美国奥迪Q7、美国路虎揽胜极光、美国林肯外交官、美国福特、美国丰田、美国GMC。”是重点产品车型关键词的体现,比如“美标宝马X5”、“美标奥迪Q7”等等。毕竟页头文件字符限制造成了很多限制关键词无法体现。对于美国来说标准车网站,中智传媒对内链进行了优化,优化了各个页面的代码优化,网站内所有页面的header标签以及页面的其他标签和链接都应该保证是每个页面名称唯一。美标汽车频道“”的页面,标题使用“美标汽车,美标奔驰配置,豪车SUV美标版价格_智宝美标车频道》,核心关键词,页面焦点关键词,站点名称和页面名称在标题中都有不错的表现,产品栏目页面对应的子页面都是新产品后台发布生成的,每个页面的标题和描述摘要动态调用发布产品名称的几个摘要。并且每个页面的标题和描述摘要动态调用发布产品名称的一些摘要。并且每个页面的标题和描述摘要动态调用发布产品名称的一些摘要。

  在网站的运营中,我们并没有得到更有价值的关键词流量。在知宝美贵汽车的新闻稿中,尽量利用原创的信息,配合精美的图片和形式。,为了提高网页信息的可读性,同时作者没有忘记在文章中以高亮和添加链接的形式在锚文本中显示关键词,也就是更有利于网站内部链接的构建和丰富,在运行中取得了明显的搜索性能。此外,新闻更新收录有限的 关键词 侧权重。调用首页最新头条新闻的方式,保证了首页的更新率。

  写起来有点麻烦。百度的算法一两轮都没有说清楚。中智传媒的网络营销顾问正在整理发布,却只是皮草。从SEO的价值来说,是对SEO和百度关键词匹配计算方法的分析思路,欢迎SEO童鞋参与讨论,蒋新鹏微博:求人做砖。本文来自蒋新鹏的博客()如转载请以链接形式注明

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线