技巧:以python建站为关键词搜索到的一些结果
优采云 发布时间: 2020-09-01 13:13使用python构建网站作为关键字发现了一些结果
此帖子来自@刘永辉在周末发布的两篇帖子. 一种是有人会接受数据抓取吗? ()另一个是为什么没有专门从事数据抓取的公司? ()发布此帖子的初衷是与对此主题感兴趣或参与数据采集,交流经验,发散思想,并探讨是否有可能在此方面定义业务模型的学生进行讨论
作为42qu中最便宜的产品经理,我目前带领团队开发两个项目,一个是在线财富管理社区(),另一个是金融信息汇总(),后者与数据捕获直接相关.
当前搜寻到的对象包括财经新闻,股票报价,财经名人博客等. 目前大约有20个搜寻目标网站,实现的语言是Java. @刘永辉与我聊天时,我说过在数据捕获服务中,需要注意的一个问题是维护. 我对此也有一些经验. 目前,我们主要分析文档结构并定义相应的正则表达式. 在后台,我们使用Quarz定期启动爬网任务,包括启动多个线程,建立URL连接,分解文档以提取数据并将它们存储在数据库中. 为了防止爬网,某些网站会定期更改文档结构,从而导致我们分析的有效性,因此所谓的维护就是随着文档结构的更改而更改. 另一个问题是,对于动态加载的数据,跟踪JS调用以查找数据的真实来源很麻烦.
除了捕获数据外,我们还进行了简单的数据分析. 对于爬行的新闻,只需定义加热算法,然后合并类似的新闻. 我认为也许数据分析的价值大于数据捕获的价值,但是我们目前在这一领域的能力仍然相对较弱.
*敏*感*词*流. 当前实现的功能是数据捕获. 向上. 看到@刘永辉的帖子,我面前很亮,我尝试联系,但很遗憾,它已经打包好了. 收信人联系了他并添加了一个问号. 不幸的是,时间相对较短,对话并不深入.
为什么没有专门从事数据抓取业务的公司?在这篇文章中,我去了百度这个术语“数据抓取”. 结果很多,表明这个主张是不正确的. 实际上,有许多公司在进行数据抓取. 答: 请引用此()进行报价. 这些网站中的大多数都在出售静态数据,提供一次性服务以及根据捕获的信息的复杂性和信息量确定价格. 最常见的是点屏的注释数据,电子商务的价格数据等. B.价格比较,团购和本地分类信息. 还应该从Internet采集很多数据. 我不知道他们是否使用了自己的开发能力或找到了第三方服务. C. Discuz论坛似乎具有文章自动采集工具,可以将其视为数据捕获的实现. D.一些公司正在做的所谓的微博舆情监测需要官方微博API接口的帮助来捕获微博数据.
对于抓取工具,我不知道我们当前的财务信息数据捕获功能是否是抓取工具,因此无需为此定义烦恼. 我只能说它可以满足我们自己的需求. 我还看到了很多使用Python进行网页数据爬网的方法. 这是主流吗?
数据抓取是否是普遍且真实的需求?哪些客户有这样的需求,他们愿意为这些需求付费吗?可以对数据抓取进行标准化以使其成为一种产品吗?标准操作方式?
基于数据捕获的数据分析可以做什么? @van @ ghostdom.wj @Alex Rezit @echoHUST @丁家远@杨子江@陈钢