java从网页抓取数据用java网页爬虫开发研究了很多方法

优采云 发布时间: 2022-05-18 04:00

  java从网页抓取数据用java网页爬虫开发研究了很多方法

  java从网页抓取数据用java网页爬虫开发,我研究了很多方法,发现爬取java网页较难,我想如果是爬取python网页应该容易的多,加上项目我要开发第三方功能(比如线上分销),

  这个其实是用ie浏览器代理的,每次点击抓取完成时候ie浏览器重新自动选择一次,即使你用tcpdump抓取,抓取完成后,你也要用一次ie浏览器才能得到对应的返回内容。

  这不就是之前的问题么,怎么上来就直接贴别人的代码,我只能说技术上来说这个可行。但是目前中国人做事的思路和思维,你一般不要期望有太好的方法,因为中国人的规矩就是,做规矩,很多时候只有用户愿意自己改,老板愿意自己改,产品愿意自己改,只要好改,一切都好说,不要强加自己不喜欢的规矩进去,你很难让老板和用户都满意,更不用想让老板和用户喜欢,这个思维我都这么多年了,还是很严重的一种,必须建立在好的用户习惯基础上。

  而保证好的用户习惯是必须保证快乐的前提下。你的问题是,1.鼠标到能看到回应;2.光标放在框里,但是不知道回应是什么;3.没有多线程。我的建议是,1.先做到鼠标定位到每一个路径回应,不然这样其实你本来想抓取pythonweb后台的,但是传统网站为了使用户获取比较快,后台可能已经没有api了。2.要做到在你所抓取路径下的每一个回应。

  3.给这几条有难度,但是好上手建议是抓包,按抓包格式抓包,转换抓包格式。其实要在成本很低的情况下做到每一条的识别基本不太可能。我没有做过pythonweb后台,就在前端抓包做一个简单的建议。你看看有没有帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线