解决方案:关键词挖词、分词、分类与可视化的10款工具分享
优采云 发布时间: 2022-11-21 17:28解决方案:关键词挖词、分词、分类与可视化的10款工具分享
很多读者留言询问如何下载该工具,我贴出下载链接如下:
工具下载地址:
链接:/s/1Gropn0qpV7ji7SlWVOw-iQ
提取码:6666
去年国庆第一次看到知乎的文章:如何在百万数据中找到别人在赚钱的项目(参考资料1),实现了君彦,然后顺藤摸瓜在知乎看了君彦几篇文章,对于一个一直在摸索尝试用技术从事自媒体写作的技术人来说,终于觉得自己找到了一个思路,用技术来做点什么。今年4月18日,*敏*感*词*后加入了盛才友。花了2个多月的时间把生财的28篇SEO精华看完,再加上几本关键词引流和知乎好物的精华,然后回过头来重新开始 君彦的文章全部看了好几遍,断断续续把涉及到的功能做出来在这些文章中汇集了一些小工具:赚钱的工具。
关键词工具
关键词工具一,关键词工具
1. 关键词内容挖掘工具
无论是通过SEO获取免费流量,还是通过SEM出价,我们都会先研究关键词在搜索引擎中的收录情况,采集
一批关键词在搜索引擎中的收录情况为了方便,你需要一个工具来自动输入关键词,然后采集
搜索引擎返回的内容。通过采集
这些链接,我们可以提取标题,也可以通过提取域名快速找出哪些同行网站目前做得比较好,研究同行网站。关键词布局和内容一直是互联网项目的必备技能。
关键词 内容挖掘工具的实际应用视频:
关键词内容挖掘工具相关截图:
关键词工具
关键词内容工具的使用很简单:输入你要挖掘的词根,比如抖音,选择收录
词根的长尾词文件,关键词内容挖掘工具将自动使用长尾词将其带到百度搜索挖掘出排名第一的文章链接。
关键词 经过一段时间的挖矿,我们得到以下文件:
包括域名、域名描述、链接标题、链接地址和在百度中的排名权重,如下:
关键词工具
提取链接的域名,然后根据百度的排名权重对域名进行排名,我们就可以轻松
方便获取相关领域的行业域名数据库,如下:
关键词工具
2. 关键词内容下载
通过以上关键词内容挖掘工具,我们发现了一批被搜索引擎收录的排名靠前的链接。为了更好的学习这些内容,我们通常希望将这些内容直接下载到本地电脑上保存。一个是为了方便查看,也可以快速模仿再创作,所以还是需要一个工具来批量下载这些链接的内容。关键词内容下载工具用于自动下载这些链接的内容,支持html、纯文本、word格式等多种格式。
关键词内容下载工具视频如下:
关键词内容下载工具截图如下:
关键词 内容下载工具也简单易用:
下载一段时间后,我们得到三种文件格式的内容,分别存放在三个文件夹中,如下:
3.关键词根据海量内容挖词
搞搜索引擎营销的都知道,要做好SEO和SEM,最重要的就是关键词挖掘。你挖掘的词越多,你就越有可能找到更多的流量机会。关键词 挖矿的方法有很多种。下面介绍基于海量内容的词挖掘方法。也是搜索引擎常用的提取关键词的方法。专业技术声明为:通过TF-IDF算法提取文章关键词。这个工具的思路也来自Junyan的文章(文末参考文献:6)。这里我们使用一批新闻语料和目标行业文章来保证采集到的关键词的行业准确性。新闻语料库可以直接从一些现成的自然语言处理网站上获取。此外,你需要采集
你需要提取的关键词目标行业的文章。哪里可以下载这些文章?很简单,上面的关键词内容下载工具就可以下载这些行业文章,也可以通过知乎直接采集
。
关键词基于海量内容挖词工具使用视频:
关键词使用海量内容挖词工具截图:
目标内容就是我们要提取的关键词内容。目前支持主流文件格式:html、txt、word、pdf。
为了控制提取词的准确度,我们一般提取TF-IDF得分前20%的关键词。具体可以根据提取效果调整该比例。
语料需要提前准备,一般以新闻语料为主。
为了加快语料库的加载速度,我们可以加载每个语料库的一部分。具体使用时,可以根据提取关键词的准确度来调整这个比例。
算法不是万能的。当一些词在很多语料库中频繁出现时,我们认为应该通过这个阈值过滤掉这些关键词,以保证抽取的准确性。
这里我以小曾的部分文章为目标内容,挖掘Junyan的部分文章得到关键词如下:
" />
4. 关键词相关搜索
如果你明确准备研究一个领域的需求,那么有没有什么办法,不管用户怎么表达,都尽可能地提炼出这个领域涉及的需求?Junyan的一篇付费文章(参考文献:5篇)给出了一个非常巧妙且可操作性强的方法:在搜索引擎中搜索相关词。
百度搜索引擎相关词挖掘有一个难点:如何保证相关词的相关性?如果不检查相关性,直接爬取的关键词会很快偏离我们的要求,比如:引流,这个根很容易爬到很多医疗类关键词,所以一定要控制关键词的相关性。
Junyan在付费文章中提出了解决这个问题的方法:利用相关词搜索结果的链接域名判断。具体细节这里不再展开。感兴趣的可以直接阅读付费文章。非常值得一读。如果您是旺财星球会员,可以直接在旺财星球上找到这篇文章免费查看。
使用这个工具还有一个小难点:如何采集一个领域的行业域名数据库?很简单,上面的关键词内容挖掘工具就可以解决这个问题。在采集
内容的同时,该工具自动提取链接域名,并根据搜索引擎排名对域名进行排序,我们得到一个行业域名数据库。
关键词 相关词搜索工具的实际操作视频:
关键词相关查词工具截图如下:
就是我们需要爬取的关键词根,例如:引流。
如果启用了域名关联校验,我们将使用百度收录的关键词链接的域名来判断关键词是否与要搜索的词根相关。
行业域名库文件确保关键词链接的域名都收录
在这个域名库文件中,可以通过前面的关键词内容挖掘工具获取,如下:
排除域名库文件的目的是排除很多基本涵盖任何行业的大型域名的搜索结果:如百度、百度知乎、知乎、新浪等。这个可以手动做一次,然后调整根据爬取结果的域名库文件,如下图:
在判断为不相关词的同时,记录判断为不相关词的链接的域名和域名描述。从这个域名文件中,我们可以确定我们的行业域名数据库集合中缺少哪些域名。我们可以添加它来提高判断关键词是否相关的准确性,不断丰富关键词行业域名库,如下:
为什么将这部分 关键词 提取到一个单独的文件中?因为这些收录
关键词的空格都收录
着用户强烈的搜索需求。想想你自己的搜索习惯。当你找不到你需要的结果时,你是不是下意识地加了一些空格,希望搜索引擎给你更准确的结果?搜索结果,部分例子关键词如下:
我们也记录了关键词在百度的搜索结果,以供二次分析。比如我们调整行业域名数据库,可以直接分析上次爬取的结果,不需要重新爬取,如下:
5. 关键词 分词
通过关键词找项目,关键是要挖掘海量用户的需求,然后做自动分类。数据量越大,分类越智能,发现的需求越清晰,分词是关键词挖掘项目的必做动作。
一个简单的分词例子如下:
如何下载抖音视频 --> how, download, Douyin, of, video.
当我们得到一批长尾词时,通常需要对长尾词进行切分,统计根词出现的频率。关键词往往符合2/8法则,词根覆盖率结合分词统计可以覆盖80%的词 20%的词根重新展开,基本可以采集
到一个有代表性的词库.
关键词分词工具实战视频:
关键词分词工具截图:
词根例如:抖音,这个词根就是要分词的长尾词文件的词根。
目前支持中文和英文。英文分词效果不是很好。后面会抽空优化英文分词功能。
本次要切分的长尾词文件不限于长尾词,还可以是一批短文本,如链接标题、文章标题等短文本。
取关键词不想要的词根,比如一些黑字的词根,还有我们明知道不要的词根。比如我们从5118导出了一批“drainage”长尾词,我们要对这些长尾词进行词分析,我们已经知道一些医学词根如:catheter, test tube, surgery显然是无关词根,我们可以用一个文件把这些不相关的词放在一起排除,这样分类的结果就不会有这些词了。
不可分词是为了保证某些词不会被拆开,因为分词工具不是万能的。比如:今日头条、视频号这两个词,就不应该拆解成:今日头条、视频、号。我们把这些不想拆的词整理成一个文件放在一起,这样可以提高分词的准确率。
这里我们还是用“抖音”来给分词后的效果截图:
下面简单解释一下上面excel的含义:
比如第4行:video是“抖音”这个长尾词中词根“video”出现的次数。
比如第4行:video,这个词根的词频与“抖音”长尾词数的比值。配合词频覆盖率参考,词根占比一目了然,快速了解词根重要性。
有了词频覆盖率,为什么还需要一个词频累积覆盖率指标呢?因为关键词往往符合2/8法则,为了方便统计一个长尾词库中80%的长尾词的词根,我们在生成时将每个词根的词自上而下累加起来这个文件的覆盖率是词频的累计覆盖率,然后直接观察“词频统计覆盖率”一栏,从上往下拖动到80%这个值,就是前面几行代表80%整个长尾词汇表的根。
我们还可以利用roots:扩展20%的可以覆盖80%词量的roots,再和一些descriptors重新组合,继续扩展更多的长尾词,这样我们就基本可以采集
到一个有代表性的词库了。
6. 关键词分类
在搜索引擎上,找到50万条属于某个行业的长尾词词库,绝对是一个很强的能力。现在我们已经可以通过一些第三方词库网站得到50万甚至更多的词库,但是自动分类50万甚至百万级别的长尾词在技术上有点难度,通过excel基本不可能做到。事实上,通过机器学习文本分类技术,我们可以在几十分钟内完成百万级长尾词。后缀的分类。
其实通过上面的一系列工具,我们已经准备好了一批长尾词。接下来,我们将使用关键词分类工具对关键词进行分类。在分类过程中,关键词 将被删除。重复、去短、去长,也可以自定义排除词文件去非目标词等处理:
" />
关键词 分类工具的视频如下:
关键词分类工具的相关截图如下:
下面以50万抖音长尾词为例,给出分类效果截图:
从上面的excel文件中,我们可以很方便的把几十万个长尾词按照类别数整理成一个excel。每一列都是一个长尾词,分为一类。栏目标题是本栏目中除词根(抖音)以外出现频率最高的2个词根的长尾词,还统计了该类长尾词的数量及其在整个长尾词中所占的比例——尾词库。
另外,关键词分类工具同时为每一列生成一个单独的文件,方便查看,如下:
至于我们应该如何使用分类文件,这里有君彦文章的一些片段:
这样一个Excel已经自动帮我们分类了类似的关键词,不同类型的词会被分开。优点是:
1:有些词可能只是少数词的不同,但它们表达的都是同一个东西,程序可以帮你分类
2:一组词聚集在一起,一眼就能看出这是一个什么样的需求,越多越清楚
3:相关的已经归类到一起,以后不会再有类似的需求,不会重复干扰
在赚钱精英文章中,还有一篇淘宝蓝海精选“流口水”小病的文章值得一读(参考文献9第四个链接)。
另外,分类的长尾词库也是自媒体写作很好的思路来源,尤其是那些带疑问词的长尾词,比如:抖音的长尾词怎么样,很有用对于那些从事抖音的人。对于自媒体培训和创作相关的作者,在没有写作思路的时候不妨从这些长尾词中寻找一些灵感。毕竟这些长尾词才是用户真正的搜索需求。
7.关键词思维导图生成
关键词分类工具分类出来的长尾词是没有结构的。词库生成后,只能从上往下看,看什么是什么。
其实我们可以通过日常工作中经常用到的脑图工具来可视化关键词的分类效果。关键词分类工具采用君彦推出的关键词词根抽取法进行分类。使分类后的关键词按照思维导图的结构自动显示。
关键词思维导图工具操作视频:
关键词思维导图工具截图:
仍然以抖音为例,生成关键词思维导图工具如下:
另外根据很多用户的反馈,长尾词达到百万级后生成的思维导图太大,难以打开,所以参考了知乎问天的文章(最近发现文章被删了) 并做更多。文件夹显示长尾词:
2. 参考资料
由于平台限制,没有给出相关链接,大家可以自行搜索。
1、如何在百万数据中找到别人在赚钱的项目
2、如何在抖音轻松找到不起眼的赚钱项目
3、学会这几点,你就能在百万数据中找到赚钱的项目
4.零粉丝,错位竞技,运营“好物推荐”
5、用逆向思维采集
大量被忽视的“声音”
6、百度竞价广告:耗尽流量蓝海-合集
7、SEO采集
海量文章,利用倒排索引寻找“相似标题”
8.我在阿里巴巴的流量方法论
9.SEO赚钱的本质
10. TF-IDF的应用:自动提取关键词
11、Google挖掘细分市场案例
最后,用小曾的一段话来结束这篇文章:
好好学习 关键词 就成功了一半!其实我们听过一句话:解决核心问题就解决了80%的问题。对于这些领域,关键词 是核心问题,所以根据我过去的经验:超过一半!.
很多读者留言询问如何下载该工具,我贴出下载链接如下:
工具下载地址:
链接:/s/1Gropn0qpV7ji7SlWVOw-iQ
提取码:6666
如果您觉得该工具对您有所启发或有任何疑问,欢迎留言讨论。写代码不易,请支持本文~
解决方案:什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理
作为编辑甚至站长,在关注网站在搜索引擎中的排名时,最重要的就是蜘蛛。搜索引擎蜘蛛是一种自动抓取互联网上网页内容的程序。每个搜索引擎都有自己的蜘蛛。那么,蜘蛛是如何抓取网站内容的呢?让我们看看它是如何工作的!
SEO是英文Search Engine Optimization的缩写,中文意译为“搜索引擎优化”。关键词的自然排名会获得更多的展示量,吸引更多的目标客户点击访问网站,从而达到网络营销和品牌建设的目的。
作为SEO初学者,首先要做的不是急于学习如何发布外链、静态、元设置等,而是了解SEO的原理和作用。所以,先给大家讲解一下搜索引擎的原理,帮助大家更好的理解SEO。
今天主要说说网络爬虫程序——蜘蛛(Spider),有些地方也叫机器人(robot)。蜘蛛是搜索引擎的自动应用程序。它的功能很简单,就是在网上浏览信息,然后把信息抓取到搜索引擎的服务器上,然后建立索引库等操作。我们可以将蜘蛛作为一种采集
网站内容的工具,这样越有利于爬取操作,越有利于SEO。其实蜘蛛的工作还是挺简单的,具体步骤见下图。
这里有一个重要的信息:蜘蛛爬取的是网站代码的内容,不是我们看到的显示内容,所以直接从数据库读取的内容没有文字,引擎是获取不到的。喜欢:
" />
显示内容:
代码内容:
蜘蛛爬取了第二个页面,但是我们真的要把这段代码的内容展示给引擎吗?明显不是。
下面介绍蜘蛛爬取网页的规则:
1.深度优先
搜索引擎蜘蛛在一个页面上找到一个链接后,顺着这个链接往下爬,然后在下一个页面上再找另一个链接,这样一页接着一页,直到爬完所有的链接,这就是深度优先的爬取策略。在这里告诉SEOER们,做好网站内链的重要性,一定要使用绝对地址。
" />
2.宽度优先
搜索引擎蜘蛛首先抓取整个页面上的所有链接一次,然后再抓取下一个页面上的所有链接。广度优先主要是告诉SEOER不要在网站上设置过多的目录,层次要分明。
3.权重优先
这个比较好理解,主要是搜索引擎蜘蛛更喜欢抓取高质量的链接内容。比如网易的首页,蜘蛛经常来,但是好的网站,蜘蛛很少来。权重优先提醒SEOER,做好优质的外链非常重要。
4. 重温爬行
例如,搜索引擎蜘蛛前一天爬取了某个网站的页面,第二天该网站又增加了新的内容,那么搜索引擎蜘蛛就可以再次爬取新的内容。长此以往,该网站在蜘蛛的“印象”中是非常友好的。这种重访爬取策略不仅对SEOER有用,对网站建设也很有用:时不时更新网站内容也能提升客户体验。
以上介绍了蜘蛛的爬取方法和内容。你应该明白为什么 SEOER 如此重视代码问题、URL 设置和原创
更新。希望这篇文章可以帮助您优化您的网站,使其受到“蜘蛛”的欢迎。网站!