关键词自动采集生成内容系统-无需任何打理(为什么没有一家公司专门做数据抓取的活吗?(图))
优采云 发布时间: 2022-01-10 12:09关键词自动采集生成内容系统-无需任何打理(为什么没有一家公司专门做数据抓取的活吗?(图))
本帖来自@刘永辉周末发的两篇文章,一篇是有人愿意接手数据采集的工作吗?() 另一个是为什么没有专门从事数据采集的公司?() 发此帖的初衷是想和对这个话题感兴趣的同学,或者参与过数据采集的同学稍微讨论一下,交流经验,发散思路,看看能不能定义什么商业模式在这方面。.
作为42qu最便宜的产品经理,我目前在主导开发两个项目,一个是在线金融社区(),一个是金融信息聚合()。后者与数据捕获直接相关。
目前爬取的对象包括财经新闻、股票行情、财经名人的博客等。爬取目标网站大约有20个,实现的语言是Java。@刘永辉在和我聊天的时候,我提到数据采集服务需要注意的问题之一就是维护,这方面我有一些经验。目前我们主要分析文档结构,定义对应的正则表达式,利用Quarz在后台定时启动爬虫任务,包括启动多线程,建立URL连接,分解文档提取数据,存入数据库等。为了防止爬取,一些网站会定期改变文档结构,导致我们解析的有效性,所以所谓的维护就是随着自己文档结构的变化而变化。还有一点麻烦的是,对于动态加载的数据,要追溯JS调用,找到数据的真正来源比较麻烦。
除了数据抓取,我们还做了简单的数据分析。对于爬取的新闻,简单定义一个热度算法,将相似的新闻合并。我觉得也许数据分析的价值大于数据捕捉,但是我们这方面的能力还是比较薄弱的。
手头的两个项目短期内看不到盈利的可能,所以一直在思考如何利用手头的资源,给自己的项目带来一点*敏*感*词*流。到目前为止已经实现的功能是数据捕获。看到@刘永辉的帖子,眼睛一亮,想联系他,可惜已经被打包了。我在站信里联系他,加了Q,可惜时间比较短,聊的不深入。
为什么没有专门从事数据采集的公司?在这个帖子里,我去百度看了“数据抓取”这个词,结果很多,说明这个命题不成立。事实上,有很多公司在做数据抓取。A. 引号可以参考这个()。这些 网站 大多是在销售静态数据,提供一次性服务,并根据捕获的信息的复杂性和数量确定价格。比较常见的有公众评论的评论数据、电商的价格数据等等。B、比价、团购、本地分类信息。还应该有很多从互联网上捕获的数据。不知道他们是利用了自己的开发实力,还是找了第三方服务。C.Discuz 论坛似乎有一个 文章 自动采集 工具,它是数据捕获的实现。D. 一些企业所谓的微博舆情监测,需要借助微博官方API接口来抓取微博数据。
关于爬虫,不知道我们*敏*感*词*融信息数据抓取功能是不是爬虫,没必要纠结这个定义。我只能说能满足我们自己的需要。我也看到很多人使用 Python 来爬取网页数据。这是主流吗?
数据抓取是一种普遍的、真正的需求吗?哪些客户有这样的需求,他们愿意为这样的需求付费?数据抓取是否可以标准化,并以标准化的方式制作成产品?
在数据捕获之上进行数据分析可以做什么?@van @ghostdom.wj @Alex Rezit @echoHUST @dingjiayuan@杨子江@陈刚