采集内容插入词库(除去之前分享的几种现成方式以外方式(组图))
优采云 发布时间: 2022-04-12 21:12采集内容插入词库(除去之前分享的几种现成方式以外方式(组图))
在以往的职业生涯中,抛开创业初期的迷茫,个人和团队成熟之后,我们从来没有被“找项目”的问题困扰过。因为我们有多种手段从不同的角度去挖掘、采集、统计、捕捉存在于互联网各个角落的商机和业务。对我们来说,更重要的是项目的选择。从我们的角度来看,哪个机会更多,哪个潜力更大。除了之前分享的几种方式,今天我再分享一种方式。如果说以前挖出来的是需求,那么今天挖出来的就是现成的生意。信息挖掘是网络营销生存的基础,其次是信息筛选。今天,主要涉及信息挖掘。知识点: 1:在百度上搜索时,添加“intitle”,搜索结果的标题必须收录完整的关键词:
这个功能这几年有点变化,比如变聪明了,知道怎么搭配了。2:在百度搜索时,添加“inurl”,搜索后的结果链接必须收录完整的字符:
这些结果必须是 知乎 列的 文章 链接。3:在百度搜索时,在搜索链接中添加“&rn=50”,一次返回50条结果:
基于以上三点,本文文章就是利用这个功能来挖掘“那些在互联网上引流的人手中的业务”。近两年来,“私域流量”一词颇为流行。每个人都希望将流量安装在自己的私域中,由自己控制,不受平台控制。可以称为私域流量的地方并不多。基本上腾讯的产品就只有一个:微信、QQ、群、公众号、个人网站除了那些买流量和卖流量的,大部分人不会把流量引到别的地方,除了上诉。因此,每个吸引流量的人,无论做什么生意,最终都会尝试留下他们的“*敏*感*词*”。考虑到平台的屏蔽政策,我们不得不绞尽脑汁想出各种谐音字,比如:“嘎尾”、“+wei”。而这些前缀就是我们今天的关键词。我们想通过搜索引擎的特殊命令,以这些前缀批量采集其他人的现成业务。第一步:采集结合诉求,我们能想到的是:考虑到平台的屏蔽政策,我们不得不绞尽脑汁想出各种谐音字,比如:“嘎尾”、“+wei”。而这些前缀就是我们今天的关键词。我们想通过搜索引擎的特殊命令,以这些前缀批量采集其他人的现成业务。第一步:采集结合诉求,我们能想到的是:
“inurl”后面的链接就是我们要采集的平台。对于这个平台,我们选择了号称“全球最大中文社区”的*敏*感*词*。这个称谓有点假,但却是实实在在的无名。在移动端,*敏*感*词*依然是集“社交”和“论坛”于一体的顶级APP。在PC端,作为百度的儿子,贴吧几乎占据了百度搜索的全部流量。它是其他兄弟产品中的第一名。如果你搜索一个词,就会有贴吧。另外,我们都知道,在*敏*感*词*上吸引流量,是几乎每个互联网新手和老手都做过的事情。那么如何写“inurl” ? 这条命令的意思是我们要搜索的结果链接必须收录我们填写的字符串,而我们搜索的内容,就是我们希望出现在标题中的关键词"add micro"就是要显示出来的在主帖标题中的 贴吧@ > 中。贴吧主帖的链接是:
https://tieba.baidu.com/p/000000000
每个帖子格式相同,后面的一串数字代表不同的帖子。所以“inurl”的值应该是:
tieba.baidu.com/p/
这将只包括搜索时所有百度 贴吧 主题帖子:
以下是我们的搜索结果:
有各种各样的事情,只有我们想不到的事情,没有其他人不做的事情。当然,不是所有的生意都适合我们,也不是所有的生意都适合做。此外,我们要的是现成的。除了知道他在做什么,我们还需要知道如何去做。因此,有必要采集所有这些信息进行研究。. 信息的采集很简单,不需要技术,用我之前分享的“网络爬虫”来采集,如果不能用,这个是传送门,看里面的第1步:这个集合,对于每个搜索结果,我们只需要标题和标题对应的链接:
我们新建一个ws项目(不了解ws的就先学上面文章,下面有些操作步骤略):
重点关注三个红框的内容: 我们在百度上搜索过:intitle:"Add Micro" inurl:/p/ intitle:"Add Micro" inurl:/p/ 是本次搜索的关键词。搜索完成后,浏览器链接框(第一个红框)中会显示对应的百度链接。一般我们搜索后显示的链接是这样的:
密集的字符串,这是因为链接收录各种字段,每个字段都有对应的信息,而且因为不是每个字段都是必填的,所以上面第一个红框中的链接是我预留的必填字段,其他不需要的字段直接去掉,这更清楚。链接字段由“&”分隔。除了第一个字段以“?”开头外,其他字段需要用“&”分隔。在上诉的搜索链接中:
等于字段“wd”的值就是我们搜索的关键词,会有一些“%”和数字,转义后被浏览器显示,不用管,“rn”返回50结果如上面所说的效果。“pn”是百度的分页格式,pn=0表示第一页,pn=50表示第二页,以此类推,每页递增50。如果我们把这个链接复制到别处,会是这样的:
https://www.baidu.com/s?wd=intitle%3A%22%E5%8A%A0%E5%BE%AE%22%20inurl%3Atieba.baidu.com%2Fp%2F&rn=50&pn=0
“wd”后面的关键词变成一串乱码。这是浏览器的 URL 编码。不用管它,明白就好,所以现在回头看上图:
我们这次新建了一个项目采集,这个项目的配置不会改变,因为都是采集百度结果页,但是我们可能采集不同的词,例如, "Jiawei" 和 "Jiawei",不同的词需要换链接,所以每次采集都需要换"start URL"。当我们切换到其他 关键词 时:
首先在浏览器链接中将“嘉伟”改为“嘉伟”,然后回车进行搜索。搜索完后,将浏览器上的链接复制到下图红框处,保存后新建一个。一轮采集。当然,“pn”的值在复制后需要修改,不能直接等于0。百度的搜索结果最多只显示76页,而我们的搜索(每页返回50页)只会显示10页最多。所以每次搜索一个新词,首先要确认“pn”的最大大小:
每次点击5或10页,等到没有了,看看上面浏览器链接中的pn是什么,然后按照刚才的链接格式填写“起始URL”,将pn设置为对应的值。现在让我们设置抓取标题的“选择器”:
点击后,标题已经被过滤掉,保存并启动采集。这就是采集数据。根本不需要任何技术。如果看不懂,那一定是对ws的基本了解还不够。回头看前面的文章先学习。你可能会惊讶,一页有 50 个结果,而十几页只有几百个结果,而且数据量非常少。事实上,这就足够了。每次我们采集到百度能返回的最多的结果,我们刚才说的前缀“加微”就可以演变成各种形式,我们可以根据过去看到的情况来发挥我们的想象力。,每个单词都可以被数百或数千捕获。采集上千个这样的词是没有问题的,足够我们去挖掘。这些词包括,但不限于:jiawei,jiawei,jiawei,jiawei,jiawei,+V,vx,各种组合。另外,我们只搜了微信,还有加群、加Q、关注公众号等等等等。公众号有各种变种,抖音@的公众号变种也很多> 和 贴吧 不见了。第二步:整理本次测试采集的数据(2000+,需要去重标题):
首先是“迪拜包机”业务,tsk tsk tsk,这个业务真的很大,因为对方在引流流量,要明确ta能提供什么,所以每个标题都清楚明确的业务信息。那么如何使用这些数据呢?我们刚才提到我们需要现成的业务,现在业务都在这个表里,我们知道他们在做什么,然后我们需要了解如何去做。由于数据太多,我们需要优先筛选。评选标准为:“迪拜包机,需要详细聊聊的朋友加150*******6357【阿联酋】……”这样的标题,我们很清楚他是做什么的,因为“迪拜”和“包机”已经明确说明。对于像“
如上,在这些高频词中,如:百度、嘉伟、需要、欢迎、沟通、联系等,对我们了解业务信息没有帮助。我们看一下这些词,认为它们是通用的,对我们理解信息没有帮助。我们可以把它们挑出来放到一个库里,比如说:无效词库,把每个标题分成词,在分词的过程中把每个词都分好。将每个词根带到无效词库进行比较。如果有,将其删除,如果没有,请保留它。最后,没有明显业务信息的标题会返回空,有业务信息的标题会返回关键信息,然后一一对应:
如上图所示,第一列标题是我们采集的,第二列是我们去掉标题中的贴吧名称字段后得到的,第三列是我们取第二列进行分词并去除无效词。可以看到,比如:
红框内的两列标题没有关键信息,都是通用词,从标题上看不出什么,所以计算后返回空,后面我们研究这样的目标。现在我们过滤以删除空的第三列(根):
最后,我们首先需要了解的数据:
主要看“key”一栏,一看就够了。如果我们对关键词感兴趣,只需点击右侧对应的百度快照链接,即可进入原帖页面:
以上是给别人推荐配置的朋友。他以低预算玩游戏,将流量引流到闲鱼或微信。如果我们对企业感兴趣怎么办?直接加微信,加完直接问,或者观察朋友圈一周左右,我们基本了解他的业务。如果我们对他的生意感兴趣,想估算一下他能赚多少钱,一般的逻辑可以根据我在知乎栏目第二个文章的第5步。这就是门户:了解了这些之后,你对业务还是有兴趣的,那么你一定知道如何吸引流量。这项业务要做的基本门槛是多少?首先是门槛,需要多少钱,准备什么工具,准备什么资源,运营需要多少时间,需要多少人。二是如何吸引流量,太简单了。在搜索引擎中获取他的*敏*感*词*并搜索:
你可以在任何地方搜索,只要他在网上留下痕迹,大部分都可以找到。当然,我们也可以想到一些排水通道。这样一来,不仅要看通道,还要确认是否可以安全排水。例如,有些人在 贴吧 吸引流量,我们搜索所有的人 贴吧,但即使这样也很有价值。一个贴吧可以被很多人打广告,那是什么?贴吧关注的人不多,或者没有管理员,他可以榨干我们,我们也可以。但是不要以为没有人关注,就没有吸引流量的价值。贴吧的流量不一定都是贴吧的用户,别忘了搜索,只要我们的帖子不能被删除,就有机会被找到。
像这样,贴吧关注的人不多,发个长尾词布局的标题,帖子内容开头写着“看头像”,名字设置为微信ID,内容与标题完全无关。但是我们一搜他的微信账号(一些坏话被删掉了):
说起来,我们刚刚采集的原创头条,有很多收录贴吧这个名字的:
除了标题本身太长,否则会有一个名字收录贴吧,我们按照格式提取(Excel、Python都可以),这里经常出现的贴吧是比较好的帖子贴吧 @>,很可能长时间无人看管。有人专门给一个搜索量极低的长尾关键词发帖,几乎没有人与他竞争,然后发到贴吧,不会被删除。随着时间的推移,该领域的大部分长尾需求都会产生。帖子的内容,到了这个时候,在这个小众领域,他几乎是处于霸屏状态,我们随便搜索都能找到他。小改进: 1:结合微信、QQ、群、公众号、扫码等核心词,发挥你的想象力,想出尽可能多的词进行搜索。你能想到的越多,你能找到的信息就越多。,信息鸿沟就是这样产生的。2:我们在演示贴吧,除了贴吧,百度知道、豆瓣、简书等都可以采集。3:正如《词文本向量分类》中介绍的,这是一种广义的挖掘方法。如果你限定了一个领域,可以结合该领域的核心词进行挖掘:
这个时候,你能挖的范围是无穷无尽的。4:搜索引擎可以自定义时间范围,如果你关心时效:
当然,这次搜索的内容会相对少很多。题外话:最近陆续发表了几种挖矿的思路和方法。想法本身不是目标,但实施才是关键。这需要一些基本的能力,所以你需要知道学习的方向以及你需要使用哪些。学什么。这些年来,我经历了很多工作内容,学到了很多工作技能,但一直没有梳理过。因此,在接下来的更新中,我们将逐步添加特殊技能普及的话题文章。我把知乎里“好东西推荐”里面的文章删掉了,因为考虑分一两个人来操作这个想法,我比较看好,所以就不放了文章在开放的平台上传播这个词,公众号比较私密,放在这里给有需要的粉丝。如果你有条件,我建议你尽快尝试。本公众号目前除了在知乎上签名外,没有使用任何引流方式。我更喜欢公众号应该依靠内容来吸引和留住粉丝。如果你觉得我发的文章还不错,对你有帮助和启发,请帮我的文章点赞和分享,谢谢!