c#抓取网页数据(谢邀webpack/nodejs工程化脚手架没有功能机制)
优采云 发布时间: 2021-10-01 10:00c#抓取网页数据(谢邀webpack/nodejs工程化脚手架没有功能机制)
c#抓取网页数据,数据只能抓取网页上面的,没有返回json和xml格式的数据,我最近都用的是51cto的html5爬虫和html5数据抓取,一个是里面有很多好看的爬虫插件和例子教程,还有一个是入门比较简单,最主要是上手容易,一天就可以出效果。刚刚也突然想到一个方法,用reactnative写个json爬虫也是可以的,考虑到reactnative本身没有jsonapi,所以想找个jsonapi的爬虫来抓取。
谢邀webpack/nodejs工程化脚手架没有功能机制的话请使用scrapy,puppeteer,node-spider或者scrapy+puppeteer。最后,如果只是单纯的需要抓取网页内容是不需要nodejs和scrapy或者puppeteer之类的,所有的html解析都可以用html5lib和json等接口来实现,只需要简单的json解析以及将json文本打包成js即可。
在老大允许的情况下可以用redis,你也可以用session之类的来处理,然后再配合一下json转post请求。有了用户数据就可以直接抓取咯。
做个mvx以及自己解析postsoap头即可
先看下c++和java能不能交叉编译json,json也只是一种数据结构,
可以试试跟前面两位一样用c++,自己编译写一套jsonwebapi。
最开始scrapy这个自动化工具可以试试