内容采集器(【】网络编程之总要网页内容)

优采云 发布时间: 2021-11-06 18:02

  内容采集器(【】网络编程之总要网页内容)

  看预览图:

  操作环境

  windows nt/xp/2003 或以上

  .net 框架 1.1

  数据库服务器 2000

  开发环境VS 2003

  目的

  学习网络编程后,总有事情要做。

  于是我想到了做一个网页内容采集器

  作者主页:

  如何使用

  测试数据来自cnBlog。

  见下文

  用户首先填写“起始页”,即从采集开始的页面。

  然后填写数据库连接字符串,这里是采集的数据插入的数据库定义,然后选择表名,不用说了。

  网页编码,如果不出意外,中国大陆可以使用UTF-8

  爬取文件名的规则:呵呵,这个工具显然是给程序员用的。您必须直接填写常规规则。比如cnblogs都是数字,所以\d写成

  建表帮助:用户指定创建几种varchar类型和几种text类型,主要针对短数据和长数据。如果您的表中已经有列,请避免使用它们。程序中没有验证。

  在网页设置中:

  采集 标记前后内容:

  例如,两者都有

  xxx

  , 如果我想 采集xxx 就写“

  到达

  ”,意思是,当然

  到达

  之间的内容。

  接下来的几个文本框用于显示内容。

  点击“获取网址”,查看它抓取的网址是否正确。

  点击“采集”将采集的内容放入数据库,然后使用Insert xx()(选择xx)直接插入目标数据。

  程序代码量很小(而且很简陋),需要做一些改动。

  不足的

  应用于正则表达式、网络编程

  因为是最简单的东西,不使用多线程,不使用其他优化方式,不支持分页。

  我测试了一下,得到了38条数据,使用了700M内存。. . .

  如果你有用,你可以改变它。方便程序员使用,无需编写大量代码。

  Surance Yin@ Surance Centre

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线