php网页抓取(猴子技术宅()关于C#学习教程,你需要了解更多细节)
优采云 发布时间: 2021-12-31 12:12php网页抓取(猴子技术宅()关于C#学习教程,你需要了解更多细节)
让我们看看我是否正确理解您的问题。我知道这个答案可能还不够,但是如果您需要更具体的答案,我需要更多详细信息。
您正在尝试编写网络爬虫程序,但它无法抓取以 .php 结尾的 url?
如果是这种情况,您需要退后一步思考为什么会这样。这可能是因为爬虫是根据 URI 方案选择使用正则表达式进行爬取的 URL。
大多数情况下,这些 URL 只是纯 HTML,但它们也可以是生成的图像(例如验证码)或 700mb iso 文件的下载链接——如果不检查 HTTP 响应中的标头,则无法确定那个网址。
注意:如果你从头开始编写自己的爬虫,你需要很好地理解HTTP。
您的爬虫在获取 URL 时首先会看到一个收录 MIME 内容类型的标头——它告诉浏览器/爬虫如何处理和打开数据(HTML、纯文本、.exe 等)。您可能希望根据 MIME 类型而不是 URL 方案下载页面。HTML 的 MIME 类型是 text/html,在下载 URL 的其余部分之前,您应该使用您正在使用的 HTTP 库检查它。
Javascript 问题
同上,除了在爬虫/解析器中运行 javascript 对于简单的项目来说是非常罕见的,并且可能会导致比它解决的问题更多的问题。为什么需要Javascript?
不同的解决方案
如果你愿意学习 Python(或者已经知道),我建议你看看 Scrapy。它是一个类似于 Django 网络框架的网络爬虫框架。它非常易于使用并解决了许多问题,因此如果您想了解更多有关该技术的信息,这可能是一个很好的起点。
以上是C#学习教程:网络爬虫解析PHP/Javascript链接?分享的所有内容,如果对大家有用,需要了解更多C#学习教程,希望大家多多关注-猴子科技之家()