c#抓取网页数据(C#使用正则表达式抓取网站信息的正则抓取技巧(图))
优采云 发布时间: 2021-09-27 16:23c#抓取网页数据(C#使用正则表达式抓取网站信息的正则抓取技巧(图))
本文文章主要介绍C#使用“target="_blank">正则表达式捕获网站信息,并结合实例分析C#对网页信息的正则捕获操作技巧,有一定参考参考价值,有需要的朋友可以参考
本文介绍了C#使用正则表达式捕获网站信息的方法。分享给大家,供大家参考,如下:
下面是一个抓取京东商城商品详情的例子。
1、创建JdRobber.cs程序类
<p>public class JdRobber
{
///
/// 判断是否京东链接
///
///
///
public bool ValidationUrl(string url)
{
bool result = false;
if (!String.IsNullOrEmpty(url))
{
Regex regex = new Regex(@"^http://item.jd.com/\d+.html$");
Match match = regex.Match(url);
if (match.Success)
{
result = true;
}
}
return result;
}
///
/// 抓取京东信息
///
///
///
public void GetInfo(string url)
{
if (ValidationUrl(url))
{
string htmlStr = WebHandler.GetHtmlStr(url, "Default");
if (!String.IsNullOrEmpty(htmlStr))
{
string pattern = ""; //正则表达式
string sourceWebID = ""; //商品关键ID
string title = ""; //标题
decimal price = 0; //价格
string picName = ""; //图片
//提取商品关键ID
pattern = @"http://item.jd.com/(?\d+).html";
sourceWebID = WebHandler.GetRegexText(url, pattern);
//提取标题
pattern = @"[\s\S]*(?.*?)";
title = WebHandler.GetRegexText(htmlStr, pattern);
//提取图片
int begin = htmlStr.IndexOf("