c#抓取网页数据(网页分析采集程序的基本流程和流程图详解 )

优采云发布时间: 2022-04-09 11:02

　　c#抓取网页数据(网页分析采集程序的基本流程和流程图详解

)

　　首先需要明确：网站的任何页面，无论是php、jsp、aspx等动态页面还是后台程序生成的静态页面，都可以在浏览器。

　　所以当你想开发一个data采集程序时，你首先要了解你要采集的网站的首页结构（HTML）。

　　一旦熟悉了网站中的 HTML 源文件的内容，其中数据是采集，程序的其余部分就很容易了。因为C#在网站上执行数据采集，原理是“下载你想要的页面的HTML源文件到采集，分析HTML代码然后抓取你需要的数据，最后保存数据。到本地文件”。

　　基本流程如下图所示：

　　1.页面源文件下载

　　首先引用 System.Net 命名空间

　　使用 System.Net；

　　还需要引用

　　使用 System.Text；

　　使用 System.IO；

　　复制代码

　　引用后实例化一个 WebClient 对象

　　私人 WebClientwc = new WebClient();

　　调用DownloadData方法从指定网页的源文件中下载一组BYTE数据，然后将BYTE数组转换为字符串。

　　// 下载页面源文件并转换为UTF8编码格式的STRING

　　string mainData = Encoding.UTF8.GetString(wc.DownloadData( string .Format("你要的网页地址采集")));

　　复制代码

　　或者也可以调用DownloadFile方法，先将源文件下载到本地再读取其字符串

　　// 下载网页源文件到本地

　　wc.DownloadFile("你要访问的网页的URL采集", "保存源文件的本地文件路径");

　　// 读取下载源文件的HTML格式字符串

　　string mainData = File.ReadAllText("保存源文件的本地文件路径",Encoding.UTF8);

　　复制代码

　　使用网页 HTML 格式字符串，您可以分析采集网页并抓取您需要的内容。

　　2.页面分析采集

　　页面分析就是用网页源文件中的一个特定的或唯一的字符（字符串）作为一个抓取点，从这个抓取点开始截取你想要的页面上的数据。

　　以博客园为栏目为例，如果我想要采集博客园首页列出的文章的标题和链接，我必须以"开头

　　代码：

　　// 经过”

　　mainData = mainData.Substring(mainData.IndexOf( " " ) + 26 );

　　// 获取文章页面的链接地址

　　字符串 articleAddr = mainData.Substring( 0 ,mainData.IndexOf( " \" " ));

　　// 获取文章标题

　　字符串文章标题 = mainData.Substring(mainData.IndexOf( " target=\"_blank\"> " ) + 16 ,

　　mainData.IndexOf( " " ) - mainData.IndexOf( " target=\"_blank\"> " ) - 16 );

　　复制代码

　　注意：当你要采集的网页首页的HTML格式发生变化时，作为抓取点的字符也要相应的改变，否则采集什么都得不到

　　3.数据存储

　　从网页中截取需要的数据后，将程序中的数据组织起来，保存到本地文件中（或者插入到自己的本地数据库中）。这样，整个采集的工作就会在一个段落中完成。

　　// 输出数据到本地文件

　　File.AppendAllText(CreateFolderIfNot(Settings.Default.OutPath) + articleTitle + ".txt" ,

　　文章数据，

　　编码.UTF8);

　　复制代码

　　另外附上我自己写的采集博客园主页文章的小程序代码。该程序的作用是将博客园主页上的文章采集全部发布下来。

　　下载地址：CnBlogCollector.rar

　　当然，如果博客园首页的格式调整了，程序的采集功能肯定会失效，而继续采集的唯一办法就是重新调整程序自己一个人，呵呵。. .

　　程序效果如下：

0

2022-04-09

c#抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c#抓取网页数据(网页分析采集程序的基本流程和流程图详解 )

0 个评论

发起人

AI时代内容工厂

c#抓取网页数据(网页分析采集程序的基本流程和流程图详解 )

0 个评论

发起人

相关问题