java抓取网页内容(java抓取网页内容大体分为如下4个步骤)

优采云发布时间: 2022-01-29 08:01

　　java抓取网页内容大体分为如下4个步骤：1.获取网页地址2.获取内容html文件3.解析html文件4.将获取到的html文件发送给浏览器浏览器读取这个html文件1.获取网页地址，可以利用我上面说的上一篇文章里面的代码，只要手机浏览器打开网址地址，就可以获取网页代码。我之前用浏览器的时候，用的百度（后来换了三个浏览器，用了好几种方法，才终于搞定）2.解析网页内容html文件，个人觉得这是最基础的一步，之前没有什么特别好的办法，就是把文本复制下来（网上有很多这种word插件），然后手动修改，在手机浏览器上查看，发现很多错误，就是找不到html文件。

　　现在我用百度（后来换了三个浏览器，用了好几种方法，才终于搞定）今天尝试了一下，直接全文检索，大概是20分钟左右，就能找到文章所在位置，只不过找完了内容以后，发现它还有20个页码，估计我要重新翻阅一下，看看还有哪些页码的内容。不过chrome浏览器倒是可以，可以查看历史记录，然后返回的页码，就是刚才页面提示的，一共有10763个页码。

　　只要使用chrome浏览器，就可以实现这个目的，使用谷歌浏览器的话，就需要有一定浏览器基础了。3.将获取到的html文件发送给浏览器浏览器解析我们发送的html文件的时候，需要一次性的解析出来，对于解析速度的影响，我这里用了一个java工具，xhr（），具体我们就不介绍了，反正就是xmlhttprequest这个东西，然后拿到相应的数据，加进数据库里面，还有数据库的建立，怎么建议大家入门，后续我会谈谈怎么建立。

　　感兴趣的同学可以百度下xhr这个工具。4.把获取到的html文件发送给浏览器浏览器解析完，发现有错误提示，大概有10763个页码，估计我要重新翻阅一下，发现数据量不小，我也正在头疼这个问题，一边手机查看解析好的html文件，一边整理数据。手机那个是土豪性质的，每天都有新的页码（看这段代码的时候）然后我把这个问题提交给了问问题的小伙伴，需要她帮忙整理，一是文章都发过来了，这不丢人二是也可以培养我解决问题的能力。

　　她提供了一个网址/，但是我没打开过，我也不知道行不行。ps：放一下网址，知乎排版要求，多图。yalongzyo/html-overview。

0

2022-01-29

java抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java抓取网页内容(java抓取网页内容大体分为如下4个步骤)

0 个评论

发起人

AI时代内容工厂

java抓取网页内容(java抓取网页内容大体分为如下4个步骤)

0 个评论

发起人

相关问题