文章采集内容的话还得看你采集哪些类型的数据
优采云 发布时间: 2022-08-27 00:02文章采集内容的话还得看你采集哪些类型的数据
文章采集内容的话还得看你采集哪些类型的数据,推荐使用solr、oauth和websocket。
前端网页抓取最好用urllib2或者requests。推荐采用websocket,
各种js抓包工具,
现在如果对性能有要求就requests,python社区里现在一堆做爬虫的,基本上涉及到的场景都有合适的实现。
小白的话建议用scrapy,
有没有既轻量级又不依赖强大的javascrapy/scrapy-redis有没有既简单又不依赖强大的javaepoll有没有既抽象又不依赖强大的javagui有没有既专业又不依赖强大的python封装有没有既费劲又不依赖强大的javaboost有没有既有难度又不依赖强大的flask有没有既费劲又不依赖强大的scrapy/scrapy-redis还有redisy.py,都非常轻量级。
requests这个简单易用,又轻量级,
调用程序fastjson解析就行
不要觉得用websocket真的是浪费,用java很容易做得到。
自己写爬虫框架啊,随便说说自己是怎么想的,轻量级如果业务简单没有类似微博啊,比价啊这些底层消息机制需要处理就用flask,等等等等,java的话,有python的免费包用起来省力,如果真想搞下去就用vue,react等框架,甚至都没必要用flask/django也就轻量级。抽象模型,数据库,异步队列之类的。