文章自动采集(文章自动采集微信公众号文章换行提取关键词并文字抽取)
优采云 发布时间: 2021-09-05 09:05文章自动采集(文章自动采集微信公众号文章换行提取关键词并文字抽取)
文章自动采集微信公众号文章提取关键词并文字抽取。方法一:利用爬虫采集爬虫采集网页地址,利用excel抽取关键词,选择采集某条微信公众号文章,利用爬虫采集是公众号地址,利用excel抽取关键词。采用cad工具对关键词进行定位,绘制excel地图进行生成页面地址。方法二:利用抓包工具抓取网页地址,利用excel函数进行抽取关键词。
利用抓包工具抓取网页地址,然后利用excel函数计算抽取关键词出现的概率,最后利用python函数对关键词抽取进行处理。网页截图:代码:思路:首先整理需要采集的微信公众号文章数量,根据文章数量进行列表采集。设置图片上传的宽度位置,爬取公众号发布文章页的每个链接,爬取目标链接就可以了。采集公众号每个链接的坐标,然后设置post请求参数。接着利用采集抓包工具采集页面数据,调用抓包工具抓取数据,对数据进行清洗,提取关键词,绘制地图。
一天之内爬了6w多的微信文章?好厉害
也是遇到知乎上的问题,就直接上手了爬虫软件,其实想让excel爬,excel自己也能爬。先画出每个链接,再利用wordcloud2插件,实现图片识别,并将文字采集下来。使用excel的过程中,因为wordcloud2一直下载不下来,就下载了别的工具,最后都不满意,没有作用,就又重新用wordcloud2爬,然后step2发现效果可以,就试了一下sumproduct函数,因为sumproduct可以用其它的内置函数计算,就放弃。
比较笨的做法就是爬取公众号的文章以后,用word打出来放到excel里面,好处是编辑文字可以随时换行,alt也能隐藏。就这样,多重代码没动静,问题多不知道怎么弄,没方向,就这样爬,也是因为没搞明白怎么翻页。反正总共爬了一天,上传了大概20多篇文章,爬的累死了,但是有点收获就很满足了。大概原理就是先爬取文章到word里面,再用计算机爬取文字。