文章网址采集器(运行环境nt/2003orFramework1.12000开发环境VS2003)

优采云 发布时间: 2021-09-28 02:14

  文章网址采集器(运行环境nt/2003orFramework1.12000开发环境VS2003)

  看预览图: 运行环境 windows nt/xp/2003 or Framework 1.1SqlServer 2000 开发环境 VS 2003 目的 学习网络编程后,总有事可做。于是我想到了做一个网页内容采集器。作者主页:使用方法 测试数据来自cnBlog。如下图所示,用户首先填写“起始页”,即从哪个页面开始采集。然后填写数据库连接字符串,这里是采集的数据插入的数据库定义,然后选择表名,不用说了。网页编码,如果不出意外,中国大陆可以用UTF-8来抓取文件名正则:呵呵,这个工具显然是给程序员用的。您必须直接填写常规规则。例如,cnblogs都是数字,所以写\d来建表帮助:用户指定创建几个varchar类型,几个text类型,主要放短数据和长数据。如果您的表中已经有列,请避免使用它们。程序中没有验证。在网页设置中:采集标签前后的内容:比如有xxx,如果我要采集xxx,就写“to”,当然就是to之间的内容. 接下来的几个文本框用于显示内容。点击“获取网址”,查看它抓取的网址是否正确。点击“采集”将采集的内容放入数据库,然后使用Insert xx()(选择xx)直接插入目标数据。程序代码量很小(而且很简陋),需要做一些改动。缺点应用于正则表达式和网络编程,因为它们是最简单的东西,所以没有使用多线程,没有其他优化方法,也不支持分页。我测试了一下,得到了38条数据,使用了700M内存。. . . 如果你有用,你可以改变它。方便程序员使用,无需编写大量代码。Surance Yin@ Surance Center 转载请注明出处

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线