文章定时自动采集(文章定时自动采集头条，百家，网易，大鱼，搜狐)

优采云发布时间: 2021-10-20 05:05

　　文章定时自动采集头条，百家，网易，大鱼，搜狐，一点资讯，知乎，新浪新闻客户端等平台，并写上标题，以下都是百度免费获取的，如果要更加丰富些，可以添加评论，点赞，关注等，更加丰富些，以上文章的地址，

　　实现短时间内的生成百科，新闻，图片等应用的：我没做过；日积月累，通过自定义字段实现长时间大数据的统计：hadoop或mapreduce，已做有20k左右；怎么实现实时，我没做过，也没看过源码；怎么从表里抓取数据的：比如你是从表里抓取数据的话，大部分是爬虫实现的；数据来源在哪里，又是怎么存放，如何统计的；这些要想好，我还是不推荐你学hadoop或mapreduce。

　　目前最主流的应该是通过爬虫，爬其他各个平台，然后再爬百度。具体做法是爬其他的网站的时候要指定链接，在电脑上登录---爬。还有爬虫要做一个结构，数据一开始就定下来，比如起个公共log.www;你要爬某个分类，就用到这些log，关键是转换后转入到电脑存储，

　　1、本地进行统计工作，比如log2、离线进行，做各种分析和处理，比如correspondence，

　　使用项目中已经开发好的storm，后面的datax等package都需要依赖storm。配置好不同log的存储形式。

0

2021-10-20

文章定时自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章定时自动采集(文章定时自动采集头条，百家，网易，大鱼，搜狐)

0 个评论

发起人

AI时代内容工厂

文章定时自动采集(文章定时自动采集头条，百家，网易，大鱼，搜狐)

0 个评论

发起人

相关问题