php curl抓取网页内容([]tototo)
优采云 发布时间: 2021-12-04 14:02php curl抓取网页内容([]tototo)
你不能只使用 cURL。你不能只使用 cURL。
cURL 将从站点获取特定的原创(静态)文件,但要获取 javascript 生成的内容,您必须将该内容放入类似浏览器的环境中,该环境支持 javascript 和 javascript 使用的所有其他主机对象脚本可以运行。 cURL 会从 网站 获取特定的原创(静态)文件,但是要获取 javascript 生成的内容,必须将内容放在支持 javascript 和所有其他 javascript 使用的宿主对象的类似浏览器的环境中,所以脚本可以运行。
然后,一旦脚本运行,您就必须访问 DOM 以从中获取您想要的任何内容。
这就是为什么大多数搜索引擎不会将 javascript 生成的内容编入索引。这就是为什么大多数搜索引擎不索引 javascript 生成的内容的原因。这是不容易的。这并不容易。
如果这是您尝试采集信息的一个特定站点,您可能需要确切地研究该站点本身是如何获取数据的,看看是否无法直接从该来源获取数据。如果这是您要采集信息的特定站点,您可能需要仔细研究该站点本身是如何获取数据的,看看是否无法直接从该来源获取数据。例如,页面中嵌入在 JS 中的数据(在这种情况下,您可以解析出该 JS)还是从 ajax 调用中获得的 JS(在这种情况下,您可以直接进行 ajax 调用)或其他一些方法。比如是页面内嵌的JS的数据(这种情况下只能解析JS),还是ajax调用得到的JS(这种情况下直接进行ajax调用)或者其他方法。