文章定时自动采集(文章定时自动采集链接,目前想象中最方便的方法)
优采云 发布时间: 2021-09-03 14:44文章定时自动采集(文章定时自动采集链接,目前想象中最方便的方法)
文章定时自动采集链接,
目前想象中最方便的方法是导出json之后自己解析。
方法一:写一个小脚本。比如在关键词后面直接加tag字段,一直换另一个词跟着看下去。非常不方便,用完了好像可以倒入很多已有数据,但要手动清理。而且关键词重复之后回看一遍。第二种方法是定时爬取知乎来自知乎app和feed客户端的链接。但问题是app应该可以爬,但feed,有些首页没得爬,有些内容自己认为不重要也没爬,怎么办呢?有没有好的算法?方法二:chrome应用有自动分词功能。所以我觉得目前就靠它了。但它里面也有另一个问题,每爬取一个链接可能匹配关键词需要好久。
题主你看看你有没有解决这个问题的场景?比如,我想一段时间内多次抓取有价值的数据?题主你有没有尝试做过下列操作?比如,同一个链接可以多次出现?是不是很多次,包括任意时刻?是不是有limit条件,比如你抓取过知乎上的链接也用过豆瓣同城。
知乎需要推送信息给你?
刚好最近也在看相关方面的,倒是可以给题主推荐几个工具。功能类似的,最好有一定的扩展性,比如:1."apidiscovery",打造一个检索*敏*感*词*知乎api的网站,用起来很方便,唯一不足就是需要付费。2."apidiscovery+link":主要帮你添加拓展页面,检索页面;例如你可以添加分享、转发、收藏等链接给好友。
另外有些群友会在群里拉你加入一些api的qq群,有多种不同功能,群里有一定的推广力度,对于找一些稀缺数据是很有效的。注意:当你进入的api多了,就要注意要小心了,里面也可能会出现广告,勿上当受骗。下面我来列举我认为可用的:1.golangmongodbapidiscovery:有兴趣的,可以考虑做用。
2."golangmongodbapidiscovery+link":这个貌似是*敏*感*词*人开发的,有兴趣可以尝试。3.mongolio:你可以试试4.greasy:这个不用多说了吧?-其实还有一个,问题解决方案,我觉得题主可以看看:。