完整的采集神器(完整的采集数据格式是如何的呢?分享一下)

优采云 发布时间: 2022-03-17 15:01

  完整的采集神器(完整的采集数据格式是如何的呢?分享一下)

  完整的采集神器是可以以实时数据作为参考采集高质量数据的,so,你的采集数据格式是如何的呢?分享一下,仅供参考,能够采集高质量数据的软件,

  请使用采访工具,而非模版,比如知乎大v采访的模版可能需要你提供一份高质量的问卷调查问卷,

  更新,那几个图,是可以爬,但不想爬。什么样的图才是爬虫爬不到的。

  别人随便扯几句,

  模版的话代码上好办,

  图1这样的:题目是“人工智能是否等同于‘热工程’?”,底下是各种附带图片的文字。有目的的有针对性地采集“热工程”这几个字(包括附带图片文字)应该可以看到很多,不过附带图片文字只是相对比较难找,需要一定的专业经验。采集问题是通过阿里云spark生产环境采集。不过,还是发现了好多问题不是很清楚怎么做爬虫,太多数据抓不到不能归总:有的抓了很多问题没有用上一般模版,有的数据太多用了很多没有用到模版,有的数据多做了一个小按钮数据抓不到;有的采集完不能直接在阿里云做spark应用程序运行,有的不能运行算法而在本地跑,有的没有做归类,有的不能自定义插入一些字段等等。回过头来发现阿里云不提供爬虫服务,也有爬虫版本,抓取速度也不快。想再采集几十个数据点真的很难。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线