php网页抓取(猴子技术宅()关于C#学习教程,你需要了解更多细节)

优采云 发布时间: 2021-12-31 12:12

  php网页抓取(猴子技术宅()关于C#学习教程,你需要了解更多细节)

  让我们看看我是否正确理解您的问题。我知道这个答案可能还不够,但是如果您需要更具体的答案,我需要更多详细信息。

  您正在尝试编写网络爬虫程序,但它无法抓取以 .php 结尾的 url?

  如果是这种情况,您需要退后一步思考为什么会这样。这可能是因为爬虫是根据 URI 方案选择使用正则表达式进行爬取的 URL。

  大多数情况下,这些 URL 只是纯 HTML,但它们也可以是生成的图像(例如验证码)或 700mb iso 文件的下载链接——如果不检查 HTTP 响应中的标头,则无法确定那个网址。

  注意:如果你从头开始编写自己的爬虫,你需要很好地理解HTTP。

  您的爬虫在获取 URL 时首先会看到一个收录 MIME 内容类型的标头——它告诉浏览器/爬虫如何处理和打开数据(HTML、纯文本、.exe 等)。您可能希望根据 MIME 类型而不是 URL 方案下载页面。HTML 的 MIME 类型是 text/html,在下载 URL 的其余部分之前,您应该使用您正在使用的 HTTP 库检查它。

  Javascript 问题

  同上,除了在爬虫/解析器中运行 javascript 对于简单的项目来说是非常罕见的,并且可能会导致比它解决的问题更多的问题。为什么需要Javascript?

  不同的解决方案

  如果你愿意学习 Python(或者已经知道),我建议你看看 Scrapy。它是一个类似于 Django 网络框架的网络爬虫框架。它非常易于使用并解决了许多问题,因此如果您想了解更多有关该技术的信息,这可能是一个很好的起点。

  以上是C#学习教程:网络爬虫解析PHP/Javascript链接?分享的所有内容,如果对大家有用,需要了解更多C#学习教程,希望大家多多关注-猴子科技之家()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线