软文采集器(软文不同于硬广怎么办?如何正确使用软文标题套路?)
优采云 发布时间: 2022-04-18 09:31软文采集器(软文不同于硬广怎么办?如何正确使用软文标题套路?)
相信大家关注的公众号里混杂着很多软文。软文 不同于硬广播,对作者来说更烦人。与文章中的插页式广告相比,有明显的广告词可以区分。软文非常隐蔽,类似于明星做P2P广告,出卖粉丝的信任来谋取经济利益。一些比较邪恶的软文甚至会误导人一辈子。他们以为自己在追随一位会引导正确道路的好老师,但最终他们是消耗你信任的收割者。帐户所有者使用他的信用来换钱。虽然大家都讨厌百度,但你不妨也讨厌一些没有底线的账户所有者出售他们的信用。退出是一个很好的举措。如果你熟悉唐诗三百首,不妨采集玩一下,熟悉一下这些软文头条套路,重逢时可以避开,省时又费不少智商税少。
数据源
本文内容采集为20次方【广告文案号搜索】中的内容,具体网址为:.
可能是因为第20个电站业主规模有限,收录的公众号乍一看似乎很少。作为教学案例,你不妨玩一下。
Excel Catalyst网页的采集功能方便轻巧,作者本人也经常使用。当 采集 过于极端且数据量很大,而 采集 的进程又不受各种反爬虫技术的阻挡时特别有用。
采集方法
首先简单抓包,得到最终的内容数据json URL,使用http下载采集,构造采集的URL,如下图,最后输入下入口URL,让google 浏览器首先打开入口URL,采集cookie,然后进行http提交访问json URL下载内容。
由于这个界面的数据量很小,所以总页数只有500页。以后采集新数据不需要采集这么多,能不能增加暂停时间也没关系,也不会被反爬虫盯上。.
具体使用请参考网页采集的功能介绍:
采集 接收到的数据是 json 格式。有了json文件,下一步也很简单。使用Excel自带的PowerQuery文件夹合并数据功能,将所有的json文件合并在一起,并在Excel表格中列出。导出到 Excel 工作表。
或者直接使用Excel Catalyst的json转Excel表格功能,比较简单。如果有小缺点,文件夹中文件的增减需要重新做一遍,不像Powerquery,可以一键刷新。
完成后,您可以使用 Excel 进行筛选和排序以找到您想要观看的内容。如果觉得收获太多,建议取消。
数据透视表简单的去重,我开始阅读软文的标题三百遍寻找语言感。下次我看到类似的东西时,我可以避免它。
我希望写 软文 的人不会读到这篇文章,如果一个好的功能被出于错误动机的人使用,那将是一场灾难。
结语
每个人都可以有一个职位。笔者的立场是坚决远离这些所谓的商业合作促销,保持公众号的纯净,对Excel Catalyst的粉丝负责。虽然这种做法已经越来越*敏*感*词*和不正常。
出淤泥而不染,大家鼓励!