文章采集内容的话还得看你采集哪些类型的数据

优采云发布时间: 2022-08-27 00:02

　　文章采集内容的话还得看你采集哪些类型的数据，推荐使用solr、oauth和websocket。

　　前端网页抓取最好用urllib2或者requests。推荐采用websocket，

　　各种js抓包工具，

　　现在如果对性能有要求就requests，python社区里现在一堆做爬虫的，基本上涉及到的场景都有合适的实现。

　　小白的话建议用scrapy，

　　有没有既轻量级又不依赖强大的javascrapy/scrapy-redis有没有既简单又不依赖强大的javaepoll有没有既抽象又不依赖强大的javagui有没有既专业又不依赖强大的python封装有没有既费劲又不依赖强大的javaboost有没有既有难度又不依赖强大的flask有没有既费劲又不依赖强大的scrapy/scrapy-redis还有redisy.py，都非常轻量级。

　　requests这个简单易用，又轻量级，

　　调用程序fastjson解析就行

　　不要觉得用websocket真的是浪费，用java很容易做得到。

　　自己写爬虫框架啊，随便说说自己是怎么想的，轻量级如果业务简单没有类似微博啊，比价啊这些底层消息机制需要处理就用flask，等等等等，java的话，有python的免费包用起来省力，如果真想搞下去就用vue，react等框架，甚至都没必要用flask/django也就轻量级。抽象模型，数据库，异步队列之类的。

0

2022-08-27

文章采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集内容的话还得看你采集哪些类型的数据

0 个评论

发起人

AI时代内容工厂

文章采集内容的话还得看你采集哪些类型的数据

0 个评论

发起人

相关问题