网站文章采集器(SqlServer2000开发环境VS2003or.net1.12000)
优采云 发布时间: 2021-09-03 12:06网站文章采集器(SqlServer2000开发环境VS2003or.net1.12000)
运行环境
windows nt/xp/2003 或以上
.net 框架1.1
SQLServer 2000
开发环境VS 2003
目的学习网络编程后,总有事情要做。
所以我想到了创建一个网页内容采集器。
作者主页:
下载链接:
如何使用 测试数据来自cnBlog。
见下图
用户首先填写“起始页”,即采集从哪个页面开始。
然后填写数据库连接字符串,这里定义采集的数据会插入哪个数据库,然后选择表名,不用说了。
网页编码,如果不出意外,中国大陆可以使用UTF-8
爬取文件名的规则:呵呵 这个工具显然是给程序员用的。您必须直接填写常规规则。比如cnblogs都是数字,所以\d
建表帮助:用户指定创建几个varchar类型和几个text类型,主要针对短数据和长数据。如果您的表中已经有列,请避免使用它们。程序中没有验证。
在网络设置中:
采集Content 标签前后:
例如,两者都有
xxx
如果我想要采集xxx,写“
到
" 的意思是,当然是
到
介于两者之间的内容。
以下文本框用于显示内容。
点击“获取网址”查看它抓取的网址是否正确。
点击“采集”将采集内容放入数据库,然后使用Insert xx()(选择xx)直接插入目标数据。
程序代码量很小(也很简单),需要做一些改动。
不足
应用于正则表达式、网络编程
因为是最简单的东西,没有多线程,没有其他优化方法,不支持分页。
我测试了一下,得到了38条数据,使用了700M内存。 . . .
如果有用,可以改。方便程序员使用,无需编写大量代码。
转载于: