java从网页抓取数据数据分析与结构化归纳设计
优采云 发布时间: 2022-06-25 20:05java从网页抓取数据数据分析与结构化归纳设计
java从网页抓取数据数据分析与结构化归纳设计
爬虫主要是使用技术应该为代理方法爬取数据,
即使是html页面,
html到json
1.采集数据;2.数据结构和格式化处理;3.数据可视化工具可以搞定。
好像使用urllib可以搞定吧
我自己的建议是:json格式化处理+python解析+js动态库处理+dom操作+url重定向
那么多答案,
python和java都用过,
目前这种问题,
bootstrap+scrapy完成大部分爬虫
写个爬虫,使用requests库多抓点数据,再放到tornado里面循环吧,然后建个list来看看收集到的数据。
这个还是比较容易的,可以找一个开源的爬虫库进行爬取,这样既不会让爬虫太复杂,也能做好一个爬虫,不过这个收集的数据都是些文本,没有成为文本的数据格式。然后再用正则处理。
对c#也熟悉,html不是很熟悉,
这种太简单了,不适合新手去爬,
1.用python提供的requests库2.用各种爬虫框架,
可以用google和火狐浏览器模拟对json的解析和接受.