话题：c#抓取网页数据 - 自动文章采集器-优采云官网

c#抓取网页数据

全部内容
精华
推荐
我的收藏
关于话题

网络数据采集（AngleSharp）-使用AngleSharp做html解析

网站优化 • 优采云发表了文章 • 0 个评论 • 288 次浏览 • 2022-06-21 23:15 • 来自相关话题

网络数据采集（AngleSharp）-使用AngleSharp做html解析
　　 public static async Task GetHtmlSourceCodeAsync(string uri) { var httpClient = new HttpClient(); try { var htmlSource = await httpClient.GetStringAsync(uri); return htmlSource; } catch (HttpRequestException e) { Console.ForegroundColor = ConsoleColor.Red; Console.WriteLine($"{nameof(HttpRequestException)}: {e.Message}"); return null; } }
　　CSS是网络爬虫的福音, 下面这两个元素在页面中可能会出现很多次:
　　
　　
　　我们可以使用AngleSharp里面的QuerySelectorAll()方法把所有符合条件的元素都找出来, 返回到一个结果集合里.
　　 public static async Task FindGreenClassAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var nameList = document.QuerySelectorAll("span > .green"); Console.WriteLine("Green names are:"); Console.ForegroundColor = ConsoleColor.Green; foreach (var item in nameList) { Console.WriteLine(item.TextContent); } } else { Console.WriteLine("No html source code returned."); } }
　　
　　非常简单, 和DOM的标准操作是一样的.
　　如果只需要元素的文字部分, 那么就是用其TextContent属性即可.
　　再看个例子
　　1. 找出页面中所有的h1, h2, h3, h4, h5, h6元素
　　2. 找出class为green或red的span元素.
　　 public static async Task FindByAttributeAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var headers = document.QuerySelectorAll("*") .Where(x => new[] { "h1", "h2", "h3", "h4", "h5", "h6" }.Contains(x.TagName.ToLower())); Console.WriteLine("Headers are:"); PrintItemsText(headers); var greenAndRed = document.All .Where(x => x.TagName == "span" && (x.ClassList.Contains("green") || x.ClassList.Contains("red"))); Console.WriteLine("Green and Red spans are:"); PrintItemsText(greenAndRed); var thePrinces = document.QuerySelectorAll("*").Where(x => x.TextContent == "the prince"); Console.WriteLine(thePrinces.Count()); } else { Console.WriteLine("No html source code returned."); } void PrintItemsText(IEnumerable elements) { foreach (var item in elements) { Console.WriteLine(item.TextContent); } } }
　　
　　这里我们可以看到QuerySelectorAll()的返回结果可以使用Linq的Where方法进行过滤, 这样就很强大了.
　　TagName属性就是元素的标签名.
　　此外, 还有一个document.All,All属性是该Document所有元素的集合, 它同样也支持Linq.
　　(该方法中使用了一个本地方法).
　　由于同时支持CSS选择器和Linq, 所以抽取元素的工作简单多了.
　　导航树
　　一个页面, 它的结构可以是这样的:
　　
　　这里面有几个概念:
　　子标签和后代标签.
　　子标签是父标签的下一级, 而后代标签则是指父标签下面所有级别的标签.
　　tr是table的子标签, tr, th, td, img都是table的后代标签.
　　使用AngleSharp, 找出子标签可以使用.Children属性.而找出后代标签, 可以使用CSS选择器.
　　兄弟标签
　　找到前一个兄弟标签使用.PreviousElementSibling属性, 后一个兄弟标签是.NextElementSibling属性.
　　父标签
　　.ParentElement属性就是父标签.
　　 public static async Task FindDescendantAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var tableChildren = document.QuerySelector("table#giftList > tbody").Children; Console.WriteLine("Table's children are:"); foreach (var child in tableChildren) { System.Console.WriteLine(child.LocalName); } var descendants = document.QuerySelectorAll("table#giftList > tbody *"); Console.WriteLine("Table's descendants are:"); foreach (var item in descendants) { Console.WriteLine(item.LocalName); } var siblings = document.QuerySelectorAll("table#giftList > tbody > tr").Select(x => x.NextElementSibling); Console.WriteLine("Table's descendants are:"); foreach (var item in siblings) { Console.WriteLine(item?.LocalName); } var parentSibling = document.All.SingleOrDefault(x => x.HasAttribute("src") && x.GetAttribute("src") == "../img/gifts/img1.jpg") ?.ParentElement.PreviousElementSibling; if (parentSibling != null) { Console.WriteLine($"Parent's previous sibling is: {parentSibling.TextContent}"); } } else { Console.WriteLine("No html source code returned."); } }
　　结果:
　　
　　
　　使用正则表达式
　　"如果你有一个问题打算使用正则表达式来解决, 那么现在你有两个问题了".
　　这里有一个测试正则表达式的网站:
　　目前, AngleSharp支持通过CSS选择器来查找元素, 也可以使用Linq来过滤元素, 当然也可以通过多种方式使用正则表达式进行更复杂的查找动作.
　　关于正则表达式我就不介绍了. 直接看例子.
　　我想找到页面中所有的满足下列要求的图片, 其src的值以../img/gifts/img开头并且随后跟着数字, 然后格式为.jpg的图标.
　　 public static async Task FindByRegexAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var images = document.QuerySelectorAll("img") .Where(x => x.HasAttribute("src") && Regex.Match(x.Attributes["src"].Value, @"\.\.\/img\/gifts/img.*\.jpg").Success); foreach (var item in images) { Console.WriteLine(item.Attributes["src"].Value); } var elementsWith2Attributes = document.All.Where(x => x.Attributes.Length == 2); foreach (var item in elementsWith2Attributes) { Console.WriteLine(item.LocalName); foreach (var attr in item.Attributes) { Console.WriteLine($"\t{attr.Name} - {attr.Value}"); } } } else { Console.WriteLine("No html source code returned."); } }
　　
　　这个其实没有任何难度.
　　但从本例可以看到, 判断元素有没有一个属性可以使用HasAttribute("xxx")方法, 可以通过.Attributes索引来获取属性, 其属性值就是.Attributes["xxx"].Value.
　　如果不会正则表达式, 我相信多写的Linq的过滤代码也差不多能达到要求.
　　遍历单个域名
　　就是几个应用的例子, 直接贴代码吧.
　　打印出一个页面内所有的超链接地址:
　　 public static async Task TraversingASingleDomainAsync() { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon"); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a"); foreach (var link in links) { Console.WriteLine(link.Attributes["href"]?.Value); } }
　　找出满足下列条件的超链接:
　　 public static async Task FindSpecificLinksAsync() { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon"); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success); foreach (var link in links) { Console.WriteLine(link.Attributes["href"]?.Value); } }
　　
　　随机找到页面里面一个连接, 然后递归调用自己的方法, 直到主动停止:
　　 private static async Task GetLinksAsync(string uri) { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success); return links; } public static async Task GetRandomNestedLinksAsync() { var random = new Random(); var links = (await GetLinksAsync("/wiki/Kevin_Bacon")).ToList(); while (links.Any()) { var newArticle = links[random.Next(0, links.Count)].Attributes["href"].Value; Console.WriteLine(newArticle); links = (await GetLinksAsync(newArticle)).ToList(); } }
　　
　　采集整个网站
　　首先要了解几个概念:
　　浅网 surface web: 是互联网上搜索引擎可以直接抓取到的那部分网络.
　　与浅网对立的就是深网 deep web: 互联网中90%都是深网.
　　暗网Darknet / dark web / dark internet: 它完全是另外一种怪兽. 它们也建立在已有的网络基础上, 但是使用Tor客户端, 带有运行在HTTP之上的新协议, 提供了一个信息交换的安全隧道. 这类网也可以采集, 但是超出了本书的范围.....
　　深网相对暗网还是比较容易采集的.
　　采集整个网站的两个好处:
　　由于网站的规模和深度, 所以采集到的超链接很多可能是重复的, 这时我们就需要链接去重, 可以使用Set类型的集合:
　　 private static readonly HashSet LinkSet = new HashSet(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task GetUniqueLinksAsync(string uri = "") { var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success); foreach (var link in links) { if (!LinkSet.Contains(link.Attributes["href"].Value)) { var newPage = link.Attributes["href"].Value; Console.WriteLine(newPage); LinkSet.Add(newPage); await GetUniqueLinksAsync(newPage); } } }
　　
　　(递归调用的深度需要注意一下, 不然有时候能崩溃).
　　收集整个网站数据
　　这个例子相对网站, 包括收集相关文字和异常处理等:
　　 private static readonly HashSet LinkSet = new HashSet(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task GetLinksWithInfoAsync(string uri = "") { var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var document = await Parser.ParseAsync(htmlSource); try { var title = document.QuerySelector("h1").TextContent; Console.ForegroundColor = ConsoleColor.Green; Console.WriteLine(title); var contentElement = document.QuerySelector("#mw-content-text").QuerySelectorAll("p").FirstOrDefault(); if (contentElement != null) { Console.WriteLine(contentElement.TextContent); } var alink = document.QuerySelector("#ca-edit").QuerySelectorAll("span a").SingleOrDefault(x => x.HasAttribute("href"))?.Attributes["href"].Value; Console.WriteLine(alink); } catch (NullReferenceException) { Console.ForegroundColor = ConsoleColor.Red; Console.WriteLine("Cannot find the tag!"); } var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success).ToList(); foreach (var link in links) { if (!LinkSet.Contains(link.Attributes["href"].Value)) { var newPage = link.Attributes["href"].Value; Console.WriteLine(newPage); LinkSet.Add(newPage); await GetLinksWithInfoAsync(newPage); } } }
　　
　　不知前方水深的例子
　　第一个例子, 寻找随机外链:
　　using System; using System.Collections.Generic; using System.Linq; using System.Net.Http; using System.Text.RegularExpressions; using System.Threading.Tasks; using AngleSharp.Parser.Html; namespace WebScrapingWithDotNetCore.Chapter03 { public class CrawlingAcrossInternet { private static readonly Random Random = new Random(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HashSet InternalLinks = new HashSet(); private static readonly HashSet ExternalLinks = new HashSet(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task FollowExternalOnlyAsync(string startingSite) { var externalLink = await GetRandomExternalLinkAsync(startingSite); if (externalLink != null) { Console.WriteLine($"External Links is: {externalLink}"); await FollowExternalOnlyAsync(externalLink); } else { Console.WriteLine("Random External link is null, Crawling terminated."); } } private static async Task GetRandomExternalLinkAsync(string startingPage) { try { var htmlSource = await HttpClient.GetStringAsync(startingPage); var externalLinks = (await GetExternalLinksAsync(htmlSource, SplitAddress(startingPage)[0])).ToList(); if (externalLinks.Any()) { return externalLinks[Random.Next(0, externalLinks.Count)]; } var internalLinks = (await GetInternalLinksAsync(htmlSource, startingPage)).ToList(); if (internalLinks.Any()) { return await GetRandomExternalLinkAsync(internalLinks[Random.Next(0, internalLinks.Count)]); } return null; } catch (HttpRequestException e) { Console.WriteLine($"Error requesting: {e.Message}"); return null; } } private static string[] SplitAddress(string address) { var addressParts = address.Replace("http://", "").Replace("https://", "").Split("/"); return addressParts; } private static async Task GetInternalLinksAsync(string htmlSource, string includeUrl) { var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(/|.*{includeUrl})").Success) .Select(x => x.Attributes["href"].Value); foreach (var link in links) { if (!string.IsNullOrEmpty(link) && !InternalLinks.Contains(link)) { InternalLinks.Add(link); } } return InternalLinks; } private static async Task GetExternalLinksAsync(string htmlSource, string excludeUrl) { var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(http|www)((?!{excludeUrl}).)*$").Success) .Select(x => x.Attributes["href"].Value); foreach (var link in links) { if (!string.IsNullOrEmpty(link) && !ExternalLinks.Contains(link)) { ExternalLinks.Add(link); } } return ExternalLinks; } private static readonly HashSet AllExternalLinks = new HashSet(); private static readonly HashSet AllInternalLinks = new HashSet(); public static async Task GetAllExternalLinksAsync(string siteUrl) { try { var htmlSource = await HttpClient.GetStringAsync(siteUrl); var internalLinks = await GetInternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]); var externalLinks = await GetExternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]); foreach (var link in externalLinks) { if (!AllExternalLinks.Contains(link)) { AllExternalLinks.Add(link); Console.WriteLine(link); } } foreach (var link in internalLinks) { if (!AllInternalLinks.Contains(link)) { Console.WriteLine($"The link is: {link}"); AllInternalLinks.Add(link); await GetAllExternalLinksAsync(link); } } } catch (HttpRequestException e) { Console.WriteLine(e); Console.WriteLine($"Request error: {e.Message}"); } } } }
　　程序有Bug, 您可以给解决下......
　　第一部分先到这....主要用的是AngleSharp. AngleSharp不止这些功能, 很强大的, 具体请看文档.
　　由于该书下一部分使用的是Python的Scrapy, 所以下篇文章我也许应该使用DotNetSpider了, 这是一个国产的库....
　　项目的代码在: 查看全部

我们可以使用AngleSharp里面的QuerySelectorAll()方法把所有符合条件的元素都找出来, 返回到一个结果集合里.
　　 public static async Task FindGreenClassAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var nameList = document.QuerySelectorAll("span > .green"); Console.WriteLine("Green names are:"); Console.ForegroundColor = ConsoleColor.Green; foreach (var item in nameList) { Console.WriteLine(item.TextContent); } } else { Console.WriteLine("No html source code returned."); } }

非常简单, 和DOM的标准操作是一样的.
　　如果只需要元素的文字部分, 那么就是用其TextContent属性即可.
　　再看个例子
　　1. 找出页面中所有的h1, h2, h3, h4, h5, h6元素
　　2. 找出class为green或red的span元素.
　　 public static async Task FindByAttributeAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var headers = document.QuerySelectorAll("*") .Where(x => new[] { "h1", "h2", "h3", "h4", "h5", "h6" }.Contains(x.TagName.ToLower())); Console.WriteLine("Headers are:"); PrintItemsText(headers); var greenAndRed = document.All .Where(x => x.TagName == "span" && (x.ClassList.Contains("green") || x.ClassList.Contains("red"))); Console.WriteLine("Green and Red spans are:"); PrintItemsText(greenAndRed); var thePrinces = document.QuerySelectorAll("*").Where(x => x.TextContent == "the prince"); Console.WriteLine(thePrinces.Count()); } else { Console.WriteLine("No html source code returned."); } void PrintItemsText(IEnumerable elements) { foreach (var item in elements) { Console.WriteLine(item.TextContent); } } }

　　这里我们可以看到QuerySelectorAll()的返回结果可以使用Linq的Where方法进行过滤, 这样就很强大了.
　　TagName属性就是元素的标签名.
　　此外, 还有一个document.All,All属性是该Document所有元素的集合, 它同样也支持Linq.
　　(该方法中使用了一个本地方法).
　　由于同时支持CSS选择器和Linq, 所以抽取元素的工作简单多了.
　　导航树
　　一个页面, 它的结构可以是这样的:
　　

这里面有几个概念:
　　子标签和后代标签.
　　子标签是父标签的下一级, 而后代标签则是指父标签下面所有级别的标签.
　　tr是table的子标签, tr, th, td, img都是table的后代标签.
　　使用AngleSharp, 找出子标签可以使用.Children属性.而找出后代标签, 可以使用CSS选择器.
　　兄弟标签
　　找到前一个兄弟标签使用.PreviousElementSibling属性, 后一个兄弟标签是.NextElementSibling属性.
　　父标签
　　.ParentElement属性就是父标签.
　　 public static async Task FindDescendantAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var tableChildren = document.QuerySelector("table#giftList > tbody").Children; Console.WriteLine("Table's children are:"); foreach (var child in tableChildren) { System.Console.WriteLine(child.LocalName); } var descendants = document.QuerySelectorAll("table#giftList > tbody *"); Console.WriteLine("Table's descendants are:"); foreach (var item in descendants) { Console.WriteLine(item.LocalName); } var siblings = document.QuerySelectorAll("table#giftList > tbody > tr").Select(x => x.NextElementSibling); Console.WriteLine("Table's descendants are:"); foreach (var item in siblings) { Console.WriteLine(item?.LocalName); } var parentSibling = document.All.SingleOrDefault(x => x.HasAttribute("src") && x.GetAttribute("src") == "../img/gifts/img1.jpg") ?.ParentElement.PreviousElementSibling; if (parentSibling != null) { Console.WriteLine($"Parent's previous sibling is: {parentSibling.TextContent}"); } } else { Console.WriteLine("No html source code returned."); } }
　　结果:

使用正则表达式
　　"如果你有一个问题打算使用正则表达式来解决, 那么现在你有两个问题了".
　　这里有一个测试正则表达式的网站:
　　目前, AngleSharp支持通过CSS选择器来查找元素, 也可以使用Linq来过滤元素, 当然也可以通过多种方式使用正则表达式进行更复杂的查找动作.
　　关于正则表达式我就不介绍了. 直接看例子.
　　我想找到页面中所有的满足下列要求的图片, 其src的值以../img/gifts/img开头并且随后跟着数字, 然后格式为.jpg的图标.
　　 public static async Task FindByRegexAsync() { const string url = "http://www.pythonscraping.com/ ... %3Bbr /> var html = await GetHtmlSourceCodeAsync(url); if (!string.IsNullOrWhiteSpace(html)) { var parser = new HtmlParser(); var document = await parser.ParseAsync(html); var images = document.QuerySelectorAll("img") .Where(x => x.HasAttribute("src") && Regex.Match(x.Attributes["src"].Value, @"\.\.\/img\/gifts/img.*\.jpg").Success);  foreach (var item in images) { Console.WriteLine(item.Attributes["src"].Value); } var elementsWith2Attributes = document.All.Where(x => x.Attributes.Length == 2); foreach (var item in elementsWith2Attributes) { Console.WriteLine(item.LocalName); foreach (var attr in item.Attributes) { Console.WriteLine($"\t{attr.Name} - {attr.Value}"); } } } else { Console.WriteLine("No html source code returned."); } }

这个其实没有任何难度.
　　但从本例可以看到, 判断元素有没有一个属性可以使用HasAttribute("xxx")方法, 可以通过.Attributes索引来获取属性, 其属性值就是.Attributes["xxx"].Value.
　　如果不会正则表达式, 我相信多写的Linq的过滤代码也差不多能达到要求.
　　遍历单个域名
　　就是几个应用的例子, 直接贴代码吧.
　　打印出一个页面内所有的超链接地址:
　　 public static async Task TraversingASingleDomainAsync() { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon";); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a"); foreach (var link in links) { Console.WriteLine(link.Attributes["href"]?.Value); } }
　　找出满足下列条件的超链接:
　　 public static async Task FindSpecificLinksAsync() { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon";); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success); foreach (var link in links) { Console.WriteLine(link.Attributes["href"]?.Value); } }

随机找到页面里面一个连接, 然后递归调用自己的方法, 直到主动停止:
　　 private static async Task GetLinksAsync(string uri) { var httpClient = new HttpClient(); var htmlSource = await httpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var parser = new HtmlParser(); var document = await parser.ParseAsync(htmlSource); var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success); return links; } public static async Task GetRandomNestedLinksAsync() { var random = new Random(); var links = (await GetLinksAsync("/wiki/Kevin_Bacon")).ToList(); while (links.Any()) { var newArticle = links[random.Next(0, links.Count)].Attributes["href"].Value; Console.WriteLine(newArticle); links = (await GetLinksAsync(newArticle)).ToList(); } }

采集整个网站
　　首先要了解几个概念:
　　浅网 surface web: 是互联网上搜索引擎可以直接抓取到的那部分网络.
　　与浅网对立的就是深网 deep web: 互联网中90%都是深网.
　　暗网Darknet / dark web / dark internet: 它完全是另外一种怪兽. 它们也建立在已有的网络基础上, 但是使用Tor客户端, 带有运行在HTTP之上的新协议, 提供了一个信息交换的安全隧道. 这类网也可以采集, 但是超出了本书的范围.....
　　深网相对暗网还是比较容易采集的.
　　采集整个网站的两个好处:
　　由于网站的规模和深度, 所以采集到的超链接很多可能是重复的, 这时我们就需要链接去重, 可以使用Set类型的集合:
　　 private static readonly HashSet LinkSet = new HashSet(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task GetUniqueLinksAsync(string uri = "") { var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success); foreach (var link in links) { if (!LinkSet.Contains(link.Attributes["href"].Value)) { var newPage = link.Attributes["href"].Value; Console.WriteLine(newPage); LinkSet.Add(newPage); await GetUniqueLinksAsync(newPage); } } }

(递归调用的深度需要注意一下, 不然有时候能崩溃).
　　收集整个网站数据
　　这个例子相对网站, 包括收集相关文字和异常处理等:
　　 private static readonly HashSet LinkSet = new HashSet(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task GetLinksWithInfoAsync(string uri = "") { var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}"); var document = await Parser.ParseAsync(htmlSource); try { var title = document.QuerySelector("h1").TextContent; Console.ForegroundColor = ConsoleColor.Green; Console.WriteLine(title); var contentElement = document.QuerySelector("#mw-content-text").QuerySelectorAll("p").FirstOrDefault(); if (contentElement != null) { Console.WriteLine(contentElement.TextContent); } var alink = document.QuerySelector("#ca-edit").QuerySelectorAll("span a").SingleOrDefault(x => x.HasAttribute("href"))?.Attributes["href"].Value; Console.WriteLine(alink); } catch (NullReferenceException) { Console.ForegroundColor = ConsoleColor.Red; Console.WriteLine("Cannot find the tag!"); } var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success).ToList(); foreach (var link in links) { if (!LinkSet.Contains(link.Attributes["href"].Value)) { var newPage = link.Attributes["href"].Value; Console.WriteLine(newPage); LinkSet.Add(newPage); await GetLinksWithInfoAsync(newPage); } } }

不知前方水深的例子
　　第一个例子, 寻找随机外链:
　　using System; using System.Collections.Generic; using System.Linq; using System.Net.Http; using System.Text.RegularExpressions; using System.Threading.Tasks; using AngleSharp.Parser.Html; namespace WebScrapingWithDotNetCore.Chapter03 { public class CrawlingAcrossInternet { private static readonly Random Random = new Random(); private static readonly HttpClient HttpClient = new HttpClient(); private static readonly HashSet InternalLinks = new HashSet(); private static readonly HashSet ExternalLinks = new HashSet(); private static readonly HtmlParser Parser = new HtmlParser(); public static async Task FollowExternalOnlyAsync(string startingSite) { var externalLink = await GetRandomExternalLinkAsync(startingSite); if (externalLink != null) { Console.WriteLine($"External Links is: {externalLink}"); await FollowExternalOnlyAsync(externalLink); } else { Console.WriteLine("Random External link is null, Crawling terminated."); } } private static async Task GetRandomExternalLinkAsync(string startingPage) { try { var htmlSource = await HttpClient.GetStringAsync(startingPage); var externalLinks = (await GetExternalLinksAsync(htmlSource, SplitAddress(startingPage)[0])).ToList(); if (externalLinks.Any()) { return externalLinks[Random.Next(0, externalLinks.Count)]; } var internalLinks = (await GetInternalLinksAsync(htmlSource, startingPage)).ToList(); if (internalLinks.Any()) { return await GetRandomExternalLinkAsync(internalLinks[Random.Next(0, internalLinks.Count)]); } return null; } catch (HttpRequestException e) { Console.WriteLine($"Error requesting: {e.Message}"); return null; } } private static string[] SplitAddress(string address) { var addressParts = address.Replace("http://", "").Replace("https://", "").Split("/"); return addressParts; } private static async Task GetInternalLinksAsync(string htmlSource, string includeUrl) { var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(/|.*{includeUrl})").Success) .Select(x => x.Attributes["href"].Value); foreach (var link in links) { if (!string.IsNullOrEmpty(link) && !InternalLinks.Contains(link)) { InternalLinks.Add(link); } } return InternalLinks; } private static async Task GetExternalLinksAsync(string htmlSource, string excludeUrl) { var document = await Parser.ParseAsync(htmlSource); var links = document.QuerySelectorAll("a") .Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(http|www)((?!{excludeUrl}).)*$").Success) .Select(x => x.Attributes["href"].Value); foreach (var link in links) { if (!string.IsNullOrEmpty(link) && !ExternalLinks.Contains(link)) { ExternalLinks.Add(link); } } return ExternalLinks; } private static readonly HashSet AllExternalLinks = new HashSet(); private static readonly HashSet AllInternalLinks = new HashSet(); public static async Task GetAllExternalLinksAsync(string siteUrl) { try { var htmlSource = await HttpClient.GetStringAsync(siteUrl); var internalLinks = await GetInternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]); var externalLinks = await GetExternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]); foreach (var link in externalLinks) { if (!AllExternalLinks.Contains(link)) { AllExternalLinks.Add(link); Console.WriteLine(link); } } foreach (var link in internalLinks) { if (!AllInternalLinks.Contains(link)) { Console.WriteLine($"The link is: {link}"); AllInternalLinks.Add(link); await GetAllExternalLinksAsync(link); } } } catch (HttpRequestException e) { Console.WriteLine(e); Console.WriteLine($"Request error: {e.Message}"); } } } }
　　程序有Bug, 您可以给解决下......
　　第一部分先到这....主要用的是AngleSharp. AngleSharp不止这些功能, 很强大的, 具体请看文档.
　　由于该书下一部分使用的是Python的Scrapy, 所以下篇文章我也许应该使用DotNetSpider了, 这是一个国产的库....
　　项目的代码在:

c#抓取网页数据 Python到底牛在哪？现在就业薪资高吗？

网站优化 • 优采云发表了文章 • 0 个评论 • 138 次浏览 • 2022-06-18 06:12 • 来自相关话题

c#抓取网页数据 Python到底牛在哪？现在就业薪资高吗？
　　
　　
　　Python是什么呢？
　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述,Python有哪些作用呢？
　　据我多年Python经验总结，Python主要有以下四大主要应用：
　　接下来和大家聊聊这几个方面：
　　1网络爬虫
　　什么叫网络爬虫？
　　网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。
　　爬虫有什么用？
　　做垂直搜索引擎（google,baidu等）.
　　科学研究：在线人类行为，在线社群演化，人类动力学研究，计量社会学，复杂网络，数据挖掘，等领域的实证研究都需要大量数据，网络爬虫是收集相关数据的利器。
　　偷窥，hacking，发垃圾邮件……
　　爬虫是搜索引擎的第一步也是最容易的一步。
　　用什么语言写爬虫？
　　C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。
　　脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取
　　C#？
　　为什么眼下最火的是Python？
　　个人用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的，于是便一发不可收拾。
　　Python优势很多，总结两个要点：
　　1）抓取网页本身的接口
　　相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize
　　2）网页抓取后的处理
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.
　　2网站开发
　　那开发网站需要用到哪些知识呢？
　　1、python基础，因为用python开发的，所以python指定要会，最起码你也得会条件判断，循环，函数，类这些知识；
　　2、html、css的基础知识，因为要开发网站，网页都html和css写的，最起码这些知识你得会，就算不会写前端，开发不出来特别漂亮的页面，网站，最起码要能看懂html标签是；
　　3、数据库基础知识，因为开发一个网站的话，数据存在哪里，就是在数据库里，那你最起码要会数据库的增删改查吧，要不然怎么存数据，取数据呢
　　上面这些知识会的话，开发一个简单的小站就没有问题了，如果想开发比较大型的网站，业务逻辑比较复杂的，那就得用到其他的知识了，比如说redis、MQ等等。
　　3人工智能
　　人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
　　人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
　　人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”，也可能超过人的智能。
　　Python正在成为机器学习的语言。大多数机器语言课程都是使用Python语言编写的，大量大公司使用的也是Python，让许多人认为它是未来的主要编程语言。
　　有些人觉得PYTHON效率底，说他不能支持多线程，好吧，这个还有点说对了，但是我想问，看这篇文章的人有几个做过搜索引擎开发？有几个做个上亿PV的并发网站开发？有几个看过LINUX内核源码？如果没有，乖乖先把入门语言学会吧~
　　4自动化运维
　　Python能满足绝大部分自动化运维的需求，又能做后端C/S架构，又能用WEB框架快速开发出高大上的WEB界面，只有当你自已有能力做出一套运维自动化系统的时候，你的价值才体现出来。
　　Python国内薪资高吗？
　　那么，既然Python这么牛，Python现在在国内的就业薪资高吗？
　　在职友集上搜索Python相关岗位，可以看到，北京python平均工资：¥ 20690/月，取自9391份样本。
　　
　　而相关的人工智能、机器学习等岗位，薪资更是高达3万元以上。
　　
　　随着国内各大互联网公司纷纷开始用Python做后台开发、大数据分析、运维测试、人工智能，Python的岗位在今年将更高。
　　不仅是在一线城市，二线城市如武汉、西安等地Python工程师的薪资也都超过11000元。
　　
　　所以，你准备好学Python了吗？
　　如果如果你担心自学学不会，希望能够学习完整的课程体系，快速的实现从0到入行，并且顺利高薪就业，欢迎你来到达内学习。
　　Python 课程0基础免费训练营已经开始报名了，8月23日-8月30日开课共6天。全国45个城市129个校区就近试听，也可在线试听。扫描下方二维码即可报名！先到先得！
　　<p style="margin: 5px 8px;padding-right: 0em;padding-left: 0em;white-space: normal;letter-spacing: 0.544px;text-align: center;widows: 1;color: rgb(62, 62, 62);line-height: 1.75em;font-family: Optima-Regular, PingFangTC-light, 微软雅黑;">-THE END-
　　●动辄一两万学费的 IT 培训班值不值得报名？
　　●三字节跳动30K-60K，大数据岗位要求曝光！DT时代又一个风口来了？
　　●北大女生痛斥男友：996是给年轻人上升的机会！
　　●这是你想要的工作吗？灵隐寺招聘：没有KPI,佛系上班
　　 
　　 点击下方“阅读原文”抢26大互联网技术课免费试听机会。
　　点在看的人都升职加薪！ 查看全部

　　c#抓取网页数据 Python到底牛在哪？现在就业薪资高吗？
　　

　　Python是什么呢？
　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述,Python有哪些作用呢？
　　据我多年Python经验总结，Python主要有以下四大主要应用：
　　接下来和大家聊聊这几个方面：
　　1网络爬虫
　　什么叫网络爬虫？
　　网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。
　　爬虫有什么用？
　　做垂直搜索引擎（google,baidu等）.
　　科学研究：在线人类行为，在线社群演化，人类动力学研究，计量社会学，复杂网络，数据挖掘，等领域的实证研究都需要大量数据，网络爬虫是收集相关数据的利器。
　　偷窥，hacking，发垃圾邮件……
　　爬虫是搜索引擎的第一步也是最容易的一步。
　　用什么语言写爬虫？
　　C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。
　　脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取
　　C#？
　　为什么眼下最火的是Python？
　　个人用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的，于是便一发不可收拾。
　　Python优势很多，总结两个要点：
　　1）抓取网页本身的接口
　　相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize
　　2）网页抓取后的处理
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.
　　2网站开发
　　那开发网站需要用到哪些知识呢？
　　1、python基础，因为用python开发的，所以python指定要会，最起码你也得会条件判断，循环，函数，类这些知识；
　　2、html、css的基础知识，因为要开发网站，网页都html和css写的，最起码这些知识你得会，就算不会写前端，开发不出来特别漂亮的页面，网站，最起码要能看懂html标签是；
　　3、数据库基础知识，因为开发一个网站的话，数据存在哪里，就是在数据库里，那你最起码要会数据库的增删改查吧，要不然怎么存数据，取数据呢
　　上面这些知识会的话，开发一个简单的小站就没有问题了，如果想开发比较大型的网站，业务逻辑比较复杂的，那就得用到其他的知识了，比如说redis、MQ等等。
　　3人工智能
　　人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
　　人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
　　人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”，也可能超过人的智能。
　　Python正在成为机器学习的语言。大多数机器语言课程都是使用Python语言编写的，大量大公司使用的也是Python，让许多人认为它是未来的主要编程语言。
　　有些人觉得PYTHON效率底，说他不能支持多线程，好吧，这个还有点说对了，但是我想问，看这篇文章的人有几个做过搜索引擎开发？有几个做个上亿PV的并发网站开发？有几个看过LINUX内核源码？如果没有，乖乖先把入门语言学会吧~
　　4自动化运维
　　Python能满足绝大部分自动化运维的需求，又能做后端C/S架构，又能用WEB框架快速开发出高大上的WEB界面，只有当你自已有能力做出一套运维自动化系统的时候，你的价值才体现出来。
　　Python国内薪资高吗？
　　那么，既然Python这么牛，Python现在在国内的就业薪资高吗？
　　在职友集上搜索Python相关岗位，可以看到，北京python平均工资：¥ 20690/月，取自9391份样本。
　　

　　而相关的人工智能、机器学习等岗位，薪资更是高达3万元以上。
　　

　　随着国内各大互联网公司纷纷开始用Python做后台开发、大数据分析、运维测试、人工智能，Python的岗位在今年将更高。
　　不仅是在一线城市，二线城市如武汉、西安等地Python工程师的薪资也都超过11000元。
　　

所以，你准备好学Python了吗？
　　如果如果你担心自学学不会，希望能够学习完整的课程体系，快速的实现从0到入行，并且顺利高薪就业，欢迎你来到达内学习。
　　Python 课程0基础免费训练营已经开始报名了，8月23日-8月30日开课共6天。全国45个城市129个校区就近试听，也可在线试听。扫描下方二维码即可报名！先到先得！
　　<p style="margin: 5px 8px;padding-right: 0em;padding-left: 0em;white-space: normal;letter-spacing: 0.544px;text-align: center;widows: 1;color: rgb(62, 62, 62);line-height: 1.75em;font-family: Optima-Regular, PingFangTC-light, 微软雅黑;">-THE END-

●动辄一两万学费的 IT 培训班值不值得报名？
　　●三字节跳动30K-60K，大数据岗位要求曝光！DT时代又一个风口来了？
　　●北大女生痛斥男友：996是给年轻人上升的机会！
　　●这是你想要的工作吗？灵隐寺招聘：没有KPI,佛系上班

点击下方“阅读原文”抢26大互联网技术课免费试听机会。

点在看的人都升职加薪！

c#抓取网页数据学完Python后，都能干点什么？

网站优化 • 优采云发表了文章 • 0 个评论 • 43 次浏览 • 2022-06-16 14:20 • 来自相关话题

　　c#抓取网页数据学完Python后，都能干点什么？
　　
　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述，Python有哪些作用呢？
　　
　　相比其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize。
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。
　　就目前Python发展而言，Python主要有以下五大主要应用：
　　接下来和大家一一聊聊学完python之后可以从事哪些方面的工作：
　　Python Web开发工程师：我们都知道Web网站开发一直都是所有互联网公司开发的重点之一，我们离不开互联网，离不开Web技术，利用Python的Web框架可以迅速开发Web应用。
　　Python爬虫开发工程师：在当前信息大爆炸时代，大量的信息都通过Web来展示，为了获取这些数据，网络爬虫工程师就应运而生，除了日常的抓取数据和解析数据的需求，还能够突破普通网站常见的反爬虫机制，以及更深层次的爬虫采集算法的编写。
　　Python大数据工程师：在大数据时代，数据是公司的核心资产，从杂乱无章的数据中提取有价值的信息或者规律，成为了数据分析师的首要任务，而Python的工具链为这项繁重的工作提供了极高的效率支持。
　　Python人工智能工程师：人工智能的迅速发展将深刻改变人类社会生活、改变世界。为抢抓人工智能发展的重大战略机遇，构筑我国人工智能发展的先发优势，加快建设创新型国家和世界科技强国，当前人工智能发展进入新阶段。
　　
　　Python拥有强大的脚本处理功能，它在操作Linux系统方面具有先天的优势，许多云平台、运维监控管理工具都是使用Python开发的，Python自动化运维让运维工程师的工作量减少效率提高！
　　当然也不是说让所有人都去追逐新技术，什么流行学什么。工作或者学习之余，学些热门技术，可以让自己保持敏锐度和竞争力，因为说不好什么时候这些热门技术就成了你的饭碗。查看全部

　　c#抓取网页数据学完Python后，都能干点什么？
　　

　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述，Python有哪些作用呢？
　　

　　相比其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize。
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。
　　就目前Python发展而言，Python主要有以下五大主要应用：
　　接下来和大家一一聊聊学完python之后可以从事哪些方面的工作：
　　Python Web开发工程师：我们都知道Web网站开发一直都是所有互联网公司开发的重点之一，我们离不开互联网，离不开Web技术，利用Python的Web框架可以迅速开发Web应用。
　　Python爬虫开发工程师：在当前信息大爆炸时代，大量的信息都通过Web来展示，为了获取这些数据，网络爬虫工程师就应运而生，除了日常的抓取数据和解析数据的需求，还能够突破普通网站常见的反爬虫机制，以及更深层次的爬虫采集算法的编写。
　　Python大数据工程师：在大数据时代，数据是公司的核心资产，从杂乱无章的数据中提取有价值的信息或者规律，成为了数据分析师的首要任务，而Python的工具链为这项繁重的工作提供了极高的效率支持。
　　Python人工智能工程师：人工智能的迅速发展将深刻改变人类社会生活、改变世界。为抢抓人工智能发展的重大战略机遇，构筑我国人工智能发展的先发优势，加快建设创新型国家和世界科技强国，当前人工智能发展进入新阶段。
　　

　　Python拥有强大的脚本处理功能，它在操作Linux系统方面具有先天的优势，许多云平台、运维监控管理工具都是使用Python开发的，Python自动化运维让运维工程师的工作量减少效率提高！
　　当然也不是说让所有人都去追逐新技术，什么流行学什么。工作或者学习之余，学些热门技术，可以让自己保持敏锐度和竞争力，因为说不好什么时候这些热门技术就成了你的饭碗。

c#抓取网页数据最火的 Python 到底牛在哪？就业薪资高吗？

网站优化 • 优采云发表了文章 • 0 个评论 • 77 次浏览 • 2022-06-16 10:16 • 来自相关话题

　　c#抓取网页数据最火的 Python 到底牛在哪？就业薪资高吗？

　　
　　Python是什么呢？
　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述,Python有哪些作用呢？
　　据我多年Python经验总结，Python主要有以下四大主要应用：
　　接下来和大家聊聊这几个方面：
　　1网络爬虫
　　什么叫网络爬虫？
　　网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。
　　爬虫有什么用？
　　做垂直搜索引擎（google,baidu等）.
　　科学研究：在线人类行为，在线社群演化，人类动力学研究，计量社会学，复杂网络，数据挖掘，等领域的实证研究都需要大量数据，网络爬虫是收集相关数据的利器。
　　偷窥，hacking，发垃圾邮件……
　　爬虫是搜索引擎的第一步也是最容易的一步。
　　用什么语言写爬虫？
　　C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。
　　脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取
　　C#？
　　为什么眼下最火的是Python？
　　个人用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的，于是便一发不可收拾。
　　Python优势很多，总结两个要点：
　　1）抓取网页本身的接口
　　相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize
　　2）网页抓取后的处理
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.
　　2二、网站开发
　　那开发网站需要用到哪些知识呢？
　　1、python基础，因为用python开发的，所以python指定要会，最起码你也得会条件判断，循环，函数，类这些知识；
　　2、html、css的基础知识，因为要开发网站，网页都html和css写的，最起码这些知识你得会，就算不会写前端，开发不出来特别漂亮的页面，网站，最起码要能看懂html标签是；
　　3、数据库基础知识，因为开发一个网站的话，数据存在哪里，就是在数据库里，那你最起码要会数据库的增删改查吧，要不然怎么存数据，取数据呢
　　上面这些知识会的话，开发一个简单的小站就没有问题了，如果想开发比较大型的网站，业务逻辑比较复杂的，那就得用到其他的知识了，比如说redis、MQ等等。
　　3人工智能
　　人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
　　人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
　　人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”，也可能超过人的智能。
　　Python正在成为机器学习的语言。大多数机器语言课程都是使用Python语言编写的，大量大公司使用的也是Python，让许多人认为它是未来的主要编程语言。
　　有些人觉得PYTHON效率底，说他不能支持多线程，好吧，这个还有点说对了，但是我想问，看这篇文章的人有几个做过搜索引擎开发？有几个做个上亿PV的并发网站开发？有几个看过LINUX内核源码？如果没有，乖乖先把入门语言学会吧~
　　4自动化运维
　　Python能满足绝大部分自动化运维的需求，又能做后端C/S架构，又能用WEB框架快速开发出高大上的WEB界面，只有当你自已有能力做出一套运维自动化系统的时候，你的价值才体现出来。
　　Python国内薪资高吗？
　　那么，既然Python这么牛，Python现在在国内的就业薪资高吗？
　　在职友集上搜索Python相关岗位，可以看到，北京python平均工资：¥ 20690/月，取自9391份样本。
　　
　　而相关的人工智能、机器学习等岗位，薪资更是高达3万元以上。
　　
　　随着国内各大互联网公司纷纷开始用Python做后台开发、大数据分析、运维测试、人工智能，Python的岗位在今年将更高。
　　不仅是在一线城市，二线城市如武汉、西安等地Python工程师的薪资也都超过11000元。
　　
　　所以，你准备好学Python了吗？查看全部

　　c#抓取网页数据最火的 Python 到底牛在哪？就业薪资高吗？

　　

　　Python是什么呢？
　　Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。
　　当下Python有多火我不再赘述,Python有哪些作用呢？
　　据我多年Python经验总结，Python主要有以下四大主要应用：
　　接下来和大家聊聊这几个方面：
　　1网络爬虫
　　什么叫网络爬虫？
　　网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需内容。
　　爬虫有什么用？
　　做垂直搜索引擎（google,baidu等）.
　　科学研究：在线人类行为，在线社群演化，人类动力学研究，计量社会学，复杂网络，数据挖掘，等领域的实证研究都需要大量数据，网络爬虫是收集相关数据的利器。
　　偷窥，hacking，发垃圾邮件……
　　爬虫是搜索引擎的第一步也是最容易的一步。
　　用什么语言写爬虫？
　　C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。
　　脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取
　　C#？
　　为什么眼下最火的是Python？
　　个人用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的，于是便一发不可收拾。
　　Python优势很多，总结两个要点：
　　1）抓取网页本身的接口
　　相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）
　　此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize
　　2）网页抓取后的处理
　　抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
　　其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.
　　2二、网站开发
　　那开发网站需要用到哪些知识呢？
　　1、python基础，因为用python开发的，所以python指定要会，最起码你也得会条件判断，循环，函数，类这些知识；
　　2、html、css的基础知识，因为要开发网站，网页都html和css写的，最起码这些知识你得会，就算不会写前端，开发不出来特别漂亮的页面，网站，最起码要能看懂html标签是；
　　3、数据库基础知识，因为开发一个网站的话，数据存在哪里，就是在数据库里，那你最起码要会数据库的增删改查吧，要不然怎么存数据，取数据呢
　　上面这些知识会的话，开发一个简单的小站就没有问题了，如果想开发比较大型的网站，业务逻辑比较复杂的，那就得用到其他的知识了，比如说redis、MQ等等。
　　3人工智能
　　人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
　　人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
　　人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”，也可能超过人的智能。
　　Python正在成为机器学习的语言。大多数机器语言课程都是使用Python语言编写的，大量大公司使用的也是Python，让许多人认为它是未来的主要编程语言。
　　有些人觉得PYTHON效率底，说他不能支持多线程，好吧，这个还有点说对了，但是我想问，看这篇文章的人有几个做过搜索引擎开发？有几个做个上亿PV的并发网站开发？有几个看过LINUX内核源码？如果没有，乖乖先把入门语言学会吧~
　　4自动化运维
　　Python能满足绝大部分自动化运维的需求，又能做后端C/S架构，又能用WEB框架快速开发出高大上的WEB界面，只有当你自已有能力做出一套运维自动化系统的时候，你的价值才体现出来。
　　Python国内薪资高吗？
　　那么，既然Python这么牛，Python现在在国内的就业薪资高吗？
　　在职友集上搜索Python相关岗位，可以看到，北京python平均工资：¥ 20690/月，取自9391份样本。
　　

　　而相关的人工智能、机器学习等岗位，薪资更是高达3万元以上。
　　

　　所以，你准备好学Python了吗？