采集 文章(正则表达式学习笔记:正则表达式30分钟入门:我就是通过这两篇)
优采云 发布时间: 2022-02-12 06:10采集 文章(正则表达式学习笔记:正则表达式30分钟入门:我就是通过这两篇)
\s+.+)">(?.+)");
这可能读起来很痛苦,但我想学过正则表达式的人会嘲笑我,因为我的正则表达式不够灵活。想给没有接触过正则表达式的朋友简单介绍一下。我才刚刚开始。正则表达式通过描述字符串的特征来匹配。这就是为什么我们需要分析页面源代码。至于怎么搭配,其实不难,我提供一些文章供大家参考。
正则表达式学习笔记:
在 30 分钟内开始使用正则表达式:
我从这两篇文章 文章 入手,并使用正则表达式编写了我最喜欢的程序。至于更多文章可以去网上找。
上面是关键的正则表达式,下面我们要讲如何获取。
采集键码
//网页操作对象,我用来获取网页的源代码
HTML html = 新的 HTML();
//执行博客园的每日排名数据采集
字符串 htmlcode = html.GetHTML("","utf-8");
//提取博客园排名文章信息的正则表达式
正则表达式 regexarticles = new Regex(".+ .+)"\s+target="_blank">(?.+) \(read:(?\d+)\).*\(comment:(?\d+) \ ).*\((?.+)\)\s*