采集内容插入词库(2017年国家*敏*感*词*考试行测备考:如何采集内容插入词库)
优采云 发布时间: 2022-03-28 08:03采集内容插入词库(2017年国家*敏*感*词*考试行测备考:如何采集内容插入词库)
采集内容插入词库,爬虫搜索把相关的抓取上来。根据关键词进行分词,然后展开,用ps或者subwordanalyzer处理一下。然后用单频词提取器提取关键词在词库中出现的频率。再用词频作为词库中词的权重,和关键词的相关度作为权重值。把关键词的相关度值和词频值进行相乘,作为关键词权重。就得到了这个词对应的相关度值。
给词库里的词每个都拿过来计算相关度值然后按相关度值排序。一个字母串当中关键词的相关度值就能直接暴力总结出一个词对应的相关度。把统计总结的结果拿到excel中进行一个词频和词汇频率的对比,看看哪个词语最近使用次数增加最多。如果增加的次数多的词语权重就会比较高。这个是excel内的统计结果,后面再调用百度关键词库的时候可以给出更好的词频数据,避免出现白尾,也方便自己调整关键词。
百度爬虫爬取爬取的长尾词以及词库。然后把词库的词拿过来进行统计。就能够知道哪些词对应哪些词。根据统计出来的结果去调整关键词的相关度。
本人目前研究过三种方法:
1)php爬虫搜狗一页500个搜索词,
2)web相关查询网站:某某关键词:目前就能够爬得30000个关键词
3)keywordtoolkit(非ai),模仿人脑对单词语序排列,提取关键词语序排列相关信息,将相关词变成可互转*敏*感*词*关系(可正向互转,反向互转,逆向互转等等),以提高查询的效率。