java爬虫抓取动态网页(java爬虫抓取动态网页的内容,不是专业的不懂)

优采云 发布时间: 2021-12-03 20:12

  java爬虫抓取动态网页(java爬虫抓取动态网页的内容,不是专业的不懂)

  java爬虫抓取动态网页的内容,不是java专业的不懂,但我能给的建议是换html页面,markdown语言解析html文本,然后对其进行解析抓取。其实也可以考虑一下python,它抓取和解析html的能力都不错。

  我个人更倾向于go,为啥不选一个爬虫程序作为主力来爬虫?自己学程序解析html,js解析等等,

  先全换成c#,再半伪代码半java,最后全换成pythonjava等动态语言。要解决的问题要有先后顺序。我没见过爬虫程序从全伪代码半java改成从只有java到解析html等动态语言的,

  可以看一下我的golang学习总结系列文章golang快速入门总结:上一篇:golang快速入门总结:数据分析、机器学习、爬虫系列文章;下一篇:golang快速入门总结:动态网页爬取系列文章;

  我没有经历过爬虫的全过程,只能给出一些有针对性的方法。你的开发环境是怎么样的,可以统一安装一些爬虫环境。第一步,把你手头已有的网站爬下来,然后封装成api。但你做过网站的代码审查。怎么让你需要的网站用go开发都给你封装好。第二步,封装好api之后,可以把url里面的参数,将这些参数封装成一个或多个类方法,每个方法里面封装对应的参数(单个参数是无法通过api获取)。

  这样就实现了python爬虫的后面两步。同时,用java来写代码就很容易。你需要从头写起。如果你以前没有做过爬虫,那么需要补一下java相关的基础知识。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线