java从网页抓取数据用java网页爬虫开发研究了很多方法

优采云发布时间: 2022-05-18 04:00

　　java从网页抓取数据用java网页爬虫开发，我研究了很多方法，发现爬取java网页较难，我想如果是爬取python网页应该容易的多，加上项目我要开发第三方功能（比如线上分销），

　　这个其实是用ie浏览器代理的，每次点击抓取完成时候ie浏览器重新自动选择一次，即使你用tcpdump抓取，抓取完成后，你也要用一次ie浏览器才能得到对应的返回内容。

　　这不就是之前的问题么，怎么上来就直接贴别人的代码，我只能说技术上来说这个可行。但是目前中国人做事的思路和思维，你一般不要期望有太好的方法，因为中国人的规矩就是，做规矩，很多时候只有用户愿意自己改，老板愿意自己改，产品愿意自己改，只要好改，一切都好说，不要强加自己不喜欢的规矩进去，你很难让老板和用户都满意，更不用想让老板和用户喜欢，这个思维我都这么多年了，还是很严重的一种，必须建立在好的用户习惯基础上。

　　而保证好的用户习惯是必须保证快乐的前提下。你的问题是，1.鼠标到能看到回应；2.光标放在框里，但是不知道回应是什么；3.没有多线程。我的建议是，1.先做到鼠标定位到每一个路径回应，不然这样其实你本来想抓取pythonweb后台的，但是传统网站为了使用户获取比较快，后台可能已经没有api了。2.要做到在你所抓取路径下的每一个回应。

　　3.给这几条有难度，但是好上手建议是抓包，按抓包格式抓包，转换抓包格式。其实要在成本很低的情况下做到每一条的识别基本不太可能。我没有做过pythonweb后台，就在前端抓包做一个简单的建议。你看看有没有帮助。

0

2022-05-18

java从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java从网页抓取数据用java网页爬虫开发研究了很多方法

0 个评论

发起人