根据关键词文章采集系统(【短视频询盘的】采集逻辑(一)——询盘的)
优采云 发布时间: 2022-03-28 14:13根据关键词文章采集系统(【短视频询盘的】采集逻辑(一)——询盘的)
[采集短视频查询逻辑]
1、通过爬虫技术,采集某个音视频区域的评论信息,然后汇总到数据库中。
采集 这里一般有三个作用域:
A、根据视频标题中收录的关键词,全抖音会有相关短视频的评论区。例如:关键词设置为【洗车机】,系统会在视频评论区搜索视频标题中带有【洗车机】三个字的内容。
B.指定主页,采集其所有视频的评论区内容。比如:我找了一个同行的账号,发现它的粉丝已经有10W了,发了300个视频。我浏览了它评论区的内容,大致上,有很多关于如何联系和如何购买的问题。然后,你可以针对这个同行,去采集他的300个视频,评论区的所有内容。
C. 指定一个视频和采集评论区的内容。比如你发现一个热门视频,评论量极高,你也可以采集只针对这个视频的评论区。
当然,这些海量的数据,如果不经过筛选,就像大海中的黄金,一文不值。这是第二步:关键词筛选。
2、通过关键词的设置,过滤掉【购买意向强烈且明显的评论】。例如,总共采集 1-1000 个。如果关键词设置为2,那么系统会直接过滤掉2、12、20、21...all with 2信息。当然,实践中一般的关键词设置有:电话号码、多少钱、如何购买、*敏*感*词*等,也可以有个性化的关键词。例如:如果你卖蛋糕,关键词我们可以加:好吃吗,防腐剂,色素等等。
当然,为了使逻辑清晰,需要大量的写作和墨水。
实际设置在后台时,不到1分钟。
简而言之,[采集] 有两个价值点:
1、 海量(相比人工筛选,机器只需要几分钟就可以显示几十万件)
2、准确(A,指定相关视频B的评论区,评论区强烈购买新账号关键词过滤,双重过滤)
如果您再添加一件事:它是 [active]
比如电视、广播、演练、招投标、SEO等都在被动等待客户
打开电视
打开收音机
去搜索
[采集]的原理是嗅到商机后主动去采集。