php网页抓取(猴子技术宅（）关于C#学习教程，你需要了解更多细节)

优采云发布时间: 2021-12-31 12:12

　　让我们看看我是否正确理解您的问题。我知道这个答案可能还不够，但是如果您需要更具体的答案，我需要更多详细信息。

　　您正在尝试编写网络爬虫程序，但它无法抓取以 .php 结尾的 url？

　　如果是这种情况，您需要退后一步思考为什么会这样。这可能是因为爬虫是根据 URI 方案选择使用正则表达式进行爬取的 URL。

　　大多数情况下，这些 URL 只是纯 HTML，但它们也可以是生成的图像（例如验证码）或 700mb iso 文件的下载链接——如果不检查 HTTP 响应中的标头，则无法确定那个网址。

　　注意：如果你从头开始编写自己的爬虫，你需要很好地理解HTTP。

　　您的爬虫在获取 URL 时首先会看到一个收录 MIME 内容类型的标头——它告诉浏览器/爬虫如何处理和打开数据（HTML、纯文本、.exe 等）。您可能希望根据 MIME 类型而不是 URL 方案下载页面。HTML 的 MIME 类型是 text/html，在下载 URL 的其余部分之前，您应该使用您正在使用的 HTTP 库检查它。

　　Javascript 问题

　　同上，除了在爬虫/解析器中运行 javascript 对于简单的项目来说是非常罕见的，并且可能会导致比它解决的问题更多的问题。为什么需要Javascript？

　　不同的解决方案

　　如果你愿意学习 Python（或者已经知道），我建议你看看 Scrapy。它是一个类似于 Django 网络框架的网络爬虫框架。它非常易于使用并解决了许多问题，因此如果您想了解更多有关该技术的信息，这可能是一个很好的起点。

　　以上是C#学习教程：网络爬虫解析PHP/Javascript链接？分享的所有内容，如果对大家有用，需要了解更多C#学习教程，希望大家多多关注-猴子科技之家()

0

2021-12-31

php网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php网页抓取(猴子技术宅（）关于C#学习教程，你需要了解更多细节)

0 个评论

发起人