c#抓取网页数据(网上内容少之又少获取提交表单后怎么知道成没成功? )
优采云 发布时间: 2022-04-02 09:26c#抓取网页数据(网上内容少之又少获取提交表单后怎么知道成没成功?
)
由于项目需要,需要获取网页内容并自动填表,所以决定使用webbrowser控件。笔者百度之后,再次觉得网上的内容太少了。他们中的大多数在提交表格后都很好。如何知道提交表单是否成功?登录成功后如何获取页面?所以我在这里谈论重点:
业务流程大致为:
1.获取页面的html代码
2.找出类型不是submit的标签,填写内容
3.查找所有类型为提交的标签,模拟点击提交
4.获取提交的页面
所以我的解决方案是:
0X01:添加第一个页面加载成功的事件1。为什么要使用添加事件的方法?因为如果不是这样的话,网页浏览器的 DocumentText 往往会不可用或者不完整,导致程序非常不稳定。
0X02:自动填表并提交。
0X03:这是最关键的一步。首先去掉之前的事件1,然后添加加载成功事件2。这种情况下,点击登录跳转后,不会调用事件1,而是调用事件2。在事件2中,可以获取webbrowser的DocumentText是没有问题的(但是需要注意的是步骤0X03的代码必须在点击提交按钮之前,否则提交后修改事件来不及了)
首先,它不是一个窗口程序,需要使用 System.Windows.Forms 来引入;使用 webbrowser 控件。之后是代码:
WebBrowser wb = new WebBrowser();
wb.ScriptErrorsSuppressed = true;
wb.DocumentCompleted += wb_DocumentCompleted;//添加页面第一次加载完成事件
private void wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)//网页加载完后调用,但是为什么调用多次????????
{
if (!e.Url.Equals(this.uri))//防止一个网址不明原因的多次调用
{
//not actually complete, do nothing
return;
}
this.htmldocument = wb.Document;
HtmlElementCollection elementcol = this.htmldocument.GetElementsByTagName("input");
wb.DocumentCompleted -= wb_DocumentCompleted;//删除页面加载完成事件
wb.DocumentCompleted += wb_DocumentCompleted2;//添加新的页面加载完成事件(也就是提交成功后页面成功载入事件)
foreach (HtmlElement ele in elementcol)
{
if (!ele.GetAttribute("type").Equals("submit"))//不是提交按钮的都填成123
{
ele.SetAttribute("value","123");
}
else
{
ele.InvokeMember("click");//点击一下
}
}
}
private void wb_DocumentCompleted2(object sender, WebBrowserDocumentCompletedEventArgs e)
{
System.Diagnostics.Debug.WriteLine(wb.DocumentText);
//throw new NotImplementedException();
}