java从网页抓取数据数据分析与结构化归纳设计

优采云 发布时间: 2022-06-25 20:05

  java从网页抓取数据数据分析与结构化归纳设计

  java从网页抓取数据数据分析与结构化归纳设计

  爬虫主要是使用技术应该为代理方法爬取数据,

  即使是html页面,

  html到json

  1.采集数据;2.数据结构和格式化处理;3.数据可视化工具可以搞定。

  好像使用urllib可以搞定吧

  我自己的建议是:json格式化处理+python解析+js动态库处理+dom操作+url重定向

  那么多答案,

  

  python和java都用过,

  目前这种问题,

  bootstrap+scrapy完成大部分爬虫

  写个爬虫,使用requests库多抓点数据,再放到tornado里面循环吧,然后建个list来看看收集到的数据。

  这个还是比较容易的,可以找一个开源的爬虫库进行爬取,这样既不会让爬虫太复杂,也能做好一个爬虫,不过这个收集的数据都是些文本,没有成为文本的数据格式。然后再用正则处理。

  对c#也熟悉,html不是很熟悉,

  这种太简单了,不适合新手去爬,

  1.用python提供的requests库2.用各种爬虫框架,

  可以用google和火狐浏览器模拟对json的解析和接受.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线