直观:简单的网页内容采集器(C#)

优采云 发布时间: 2020-08-31 10:22

  简单的Web内容采集(C#)

  操作环境

  windows nt / xp / 2003或更高版本

  .net Framework 1.1

  SqlServer 2000

  开发环境VS 2003

  学习网络编程的目的总有事情要做.

  所以我想到了制作网络内容采集器.

  作者主页:

  下载URL:

  使用方法测试数据来自cnBlog.

  看下面的图片

  

  用户首先填写“开始页面”,即开始采集的页面.

  然后填写数据库连接字符串,这是从中插入来自采集数据的数据库的定义,然后选择表名,不用说.

  网页编码,如果不是意外的话,中国大陆可以使用UTF-8

  用于爬网文件名的常规规则: 哈哈此工具显然适合程序员. 您必须直接填写常规规则. 例如,cnblogs都是数字,因此\ d

  表创建帮助: 用户指定创建几种varchar类型和几种文本类型,主要用于短数据和长数据. 如果表中已经有列,请避免使用它们. 该程序中没有验证.

  在网络设置中:

  采集内容前后:

  例如,两者都有

  xxx

  如果我要采集xxx,请输入“

  到

  ”当然是

  到

  两者之间的内容.

  以下文本框用于显示内容.

  单击“获取URL”以查看其捕获的网址是否正确.

  单击“采集”将采集的内容放入数据库中,然后使用Insert xx()(选择xx)直接插入目标数据.

  程序代码量很小(而且非常简单),并且需要进行一些更改.

  不足

  适用于正则表达式,网络编程

  因为这是最简单的事情,所以没有多线程,没有其他优化方法,并且不支持分页.

  我对其进行了测试,获得了38条数据,并使用了700M的内存. . .

  如果有用,可以进行更改. 方便程序员使用,避免编写大量代码.

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线