采集内容插入词库(爬虫用爬虫爬取关键词的全网搜索,得到你想要的内容)
优采云 发布时间: 2021-11-26 11:07采集内容插入词库(爬虫用爬虫爬取关键词的全网搜索,得到你想要的内容)
采集内容插入词库,根据记录的词库,用关键词在不同的页面抓取同一主题的内容,一份或者多份,实现关键词的全网搜索,得到你想要的内容。
之前我也很困惑这个问题,不知道把所有的内容都放到一个词库里会不会造成有的词某些页面没有的词,这样,首页或者其他页面你是可以看到该词但是没有该页面的内容。后来我就都放到一个词库里了,放了有7000多页(听别人说是这样,有点多。),要什么搜什么,首页基本什么词你都能看到,当然前提是你手机端的浏览器要好使。
百度重度用户表示,仅仅可以抓关键词,但是每个页面抓取到的都差不多,
当你发现百度没有的时候你不在需要了,
常用方法:把内容都放到一个词库了,然后在内容页面爬取关键词再导出,导出方式可以用其他浏览器,用脚本都是可以的。
可以考虑用python爬取关键词然后转存
干嘛要通过插入的词库来搜索。只需要搞搜索的时候全页搜索一遍就行了,把联想词放进词库。
我也不太确定我觉得你应该跟编程有关系可以先做爬虫用爬虫爬取关键词然后再通过query导出词库
其实你试试...让用户用小号去百度搜索“...”...只搜索不评论不拉黑不拉黑?一样可以得到相同内容。