解决方案:智能采集器没用过,但一个从业者推荐

优采云 发布时间: 2022-10-04 19:11

  解决方案:智能采集器没用过,但一个从业者推荐

  智能采集器没用过,但一个从业者推荐现在做的比较火的方案,感兴趣可以了解一下:gaictromanager:全面整合动态采集和动态表单,

  你的数据量很小,所以推荐个人项目,

  

  开源的就选juc吧lexicape:java、c++混合式爬虫。国内大多数公司都在使用了。

  普通的网页一般可以用一些开源项目。比如scrapy,pyspider,beautifulsoup等等。当然了,你也可以使用webdriver来做,这个方案最简单。

  普通的网页,googlescrapy,urllib2,python,mysql或restfulapi.小网站可以用shodan或者类似googlesearch的工具或者fullpage框架。

  

  爬虫涉及的技术知识很多,我个人比较推荐的是*敏*感*词*网页爬虫相关的技术。从语言和框架,到网站结构,数据格式。同时需要研究bs4/beautifulsoup/jquery/xpath,等等。业余爱好,按照爬虫的所需功能,还可以上restfulapi。比如社交网站,金融类网站,景区类网站等等。

  gmail工程师路过

  这个用爬虫来练手是很好的选择。

  推荐一个runtime写的爬虫,代码量极少,安装容易上手,不折腾。是个叫cojocaneathl的人写的,做了有一年了,基本上本地可以跑。读者可以看看,毕竟这只是一个初学爬虫的第一步。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线