采集 文章(正则表达式学习笔记:正则表达式30分钟入门:我就是通过这两篇)

优采云 发布时间: 2022-02-12 06:10

  采集 文章(正则表达式学习笔记:正则表达式30分钟入门:我就是通过这两篇)

  \s+.+)">(?.+)");

  这可能读起来很痛苦,但我想学过正则表达式的人会嘲笑我,因为我的正则表达式不够灵活。想给没有接触过正则表达式的朋友简单介绍一下。我才刚刚开始。正则表达式通过描述字符串的特征来匹配。这就是为什么我们需要分析页面源代码。至于怎么搭配,其实不难,我提供一些文章供大家参考。

  正则表达式学习笔记:

  在 30 分钟内开始使用正则表达式:

  我从这两篇文章 文章 入手,并使用正则表达式编写了我最喜欢的程序。至于更多文章可以去网上找。

  上面是关键的正则表达式,下面我们要讲如何获取。

  采集键码

  //网页操作对象,我用来获取网页的源代码

  HTML html = 新的 HTML();

  //执行博客园的每日排名数据采集

  字符串 htmlcode = html.GetHTML("","utf-8");

  //提取博客园排名文章信息的正则表达式

  正则表达式 regexarticles = new Regex(".+ .+)"\s+target="_blank">(?.+) \(read:(?\d+)\).*\(comment:(?\d+) \ ).*\((?.+)\)\s*

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线