一是人工采集,二是智能采集(人工采集,二的想法和知识和时间维度的区别)

优采云发布时间: 2021-11-18 01:05

　　一是人工采集,二是智能采集.智能采集是基于搜索引擎的机器学习技术,会自动提取用户意图

　　一般可以通过关键词爬虫或者业务字段，通过for循环逐步爬取，网站服务商也都有技术对接，看是否支持。

　　首先要搞清楚你的目的是什么？我的理解是把具体的网站或者全国各地的特定目标提取出来。然后推荐使用页面采集，前景比较广阔。当然我没有做过，还在探索中。还有一种方式是爬全国的各种不同的大型门户，大网站。我一直用的chinaz爬虫都是高效的爬虫，针对不同的分类还有不同的响应策略，对于不同网站抓取效率很高。

　　百度网站爬虫应该很多人听说过吧~现在说说我关于网站爬虫的一些想法，

　　1、至少要有一套可以管理大型网站的框架吧，这个大的框架可以分前端（前端，比如html、css）、后端（你懂的，比如webserver）和策略类数据采集，

　　2、文件数据抓取时要通过scrapy实现，

　　3、爬虫技术是个慢活，不像大部分编程语言可以一下子学会，再短时间学会是不可能的，得要过很长时间，

　　4、要配备随时开机的程序，至少可以用在爬虫初期需要抓取很大量的页面；如果可以，至少完成上面三点，至少都是一个可以胜任的互联网爬虫工程师了，才会有产品经理、产品经理助理之类的岗位！剩下就是后期的算法方面的知识和时间维度，这一点在我看来超难，至少比很多学python和java程序员痛苦很多，如果非要这么搞的话可以考虑现在搞个爬虫公司。

0

2021-11-18

一是人工采集,二是智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

一是人工采集,二是智能采集(人工采集,二的想法和知识和时间维度的区别)

0 个评论

发起人

AI时代内容工厂

一是人工采集,二是智能采集(人工采集,二的想法和知识和时间维度的区别)

0 个评论

发起人

相关问题