网页内容抓取工具(在线看电子书怎么办?电子书下载地址及分包处理方法)

优采云 发布时间: 2021-09-25 18:32

  网页内容抓取工具(在线看电子书怎么办?电子书下载地址及分包处理方法)

  最近,我在网上看电子书。因为空间太长,我找不到下载地址,所以我写了一个小工具在本地下载电子书

  总体思路:

  1、获取目录中每个章节的名称和URL

  2、遍历章节URL以获取特定内容

  3、将章节URL分包给多线程

  4、重新组织处理后的内容,并按章节名称对其进行排序

  5、将内容写入TXT文件

  首先,获取导航页面的内容,并通过webrequest对象获取网页内容

  ///

/// 通过链接地址获取HTML内容

///

///

///

private static string GetHtml(string url)

{

string html = "";

try

{

WebRequest request = WebRequest.Create(url);

request.Credentials = CredentialCache.DefaultCredentials;

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream stream = response.GetResponseStream();

StreamReader reader = new StreamReader(stream, encoding);

html = reader.ReadToEnd();

reader.Close();

stream.Close();

response.Close();

}

catch

{

}

return html;

}

  通过常规方法获取章节地址和名称

<p>///

/// 获取所有链接地址

///

///

private static Dictionary GetAllUrl(string html)

{

string titlePattern = @"第(?\d+)节";

Dictionary dictRet = new Dictionary();

string pattern = @"]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线