js 抓取网页内容(怎么显示在网页上的呢?网页的代码里面直接包含内容)

优采云 发布时间: 2022-04-16 01:01

  js 抓取网页内容(怎么显示在网页上的呢?网页的代码里面直接包含内容)

  网页内容一般是指我们最终在网页上看到的内容,但是这个过程并不像直接在网页的代码中收录内容那么简单,所以对于很多新手来说,会遇到很多问题,比如:

  显然,当用 Chrome 或 Firefox 检查页面时,可以看到 HTML 标签中收录的内容,但在抓取时为空。

  很多内容必须通过点击按钮或执行交互操作来显示在页面上。

  因此,对于很多新手来说,做法是使用别人模拟浏览器操作的某种语言的库。其实就是调用本地浏览器或者收录一些执行javascript的引擎进行模拟操作来抓取数据。在抓取大量数据的情况下,效率很低,相当于给技术人员自己用了一个盒子,那么这些内容到底是如何在网页上显示的呢?

  主要分为以下几种情况:

  网页收录内容的情况是最容易解决的。一般来说,基本上都是写死的静态网页,或者是使用模板渲染的动态网页。当浏览器获取 HTML 时,它已经收录了所有的关键信息,所以你在网页上直接看到的内容可以通过特定的 HTML 标签由 javascript 代码加载。这是因为虽然网页显示时内容在HTML标签中,但实际上是通过执行js代码添加到标签中的。所以此时内容在js代码中,js的执行是在浏览器端,所以当你使用程序请求网页地址时,得到的响应是网页代码和js代码,所以你可以在浏览器端看到它。说到内容,由于解析时没有执行js,所以一定要发现指定html标签下的内容一定是空的。此时的处理方式一般是找到收录该内容的js代码字符串,然后通过正则表达式获取对应的内容。, 而不是解析 HTML 标签。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线