直观:简单的网页内容采集器(C#)
优采云 发布时间: 2020-08-31 10:22简单的Web内容采集器(C#)
操作环境
windows nt / xp / 2003或更高版本
.net Framework 1.1
SqlServer 2000
开发环境VS 2003
学习网络编程的目的总有事情要做.
所以我想到了制作网络内容采集器.
作者主页:
下载URL:
使用方法测试数据来自cnBlog.
看下面的图片
用户首先填写“开始页面”,即开始采集的页面.
然后填写数据库连接字符串,这是从中插入来自采集数据的数据库的定义,然后选择表名,不用说.
网页编码,如果不是意外的话,中国大陆可以使用UTF-8
用于爬网文件名的常规规则: 哈哈此工具显然适合程序员. 您必须直接填写常规规则. 例如,cnblogs都是数字,因此\ d
表创建帮助: 用户指定创建几种varchar类型和几种文本类型,主要用于短数据和长数据. 如果表中已经有列,请避免使用它们. 该程序中没有验证.
在网络设置中:
采集内容前后:
例如,两者都有
xxx
如果我要采集xxx,请输入“
到
”当然是
到
两者之间的内容.
以下文本框用于显示内容.
单击“获取URL”以查看其捕获的网址是否正确.
单击“采集”将采集的内容放入数据库中,然后使用Insert xx()(选择xx)直接插入目标数据.
程序代码量很小(而且非常简单),并且需要进行一些更改.
不足
适用于正则表达式,网络编程
因为这是最简单的事情,所以没有多线程,没有其他优化方法,并且不支持分页.
我对其进行了测试,获得了38条数据,并使用了700M的内存. . .
如果有用,可以进行更改. 方便程序员使用,避免编写大量代码.
转载于: