解决方案:图片操作论文 网络图片搜索采集器的设计

优采云 发布时间: 2022-10-01 17:12

  解决方案:图片操作论文 网络图片搜索采集器的设计

  简介:本论文主要讨论图像处理论文模型相关的参考文献,对您的论文写作具有参考作用。

  陈志伟

  (福州大学工程技术学院, 福建福州 350002)

  摘要:Web 信息数据是 Internet 上最大、最丰富的信息资源。该工具通过C#编程实现,使用正则表达式对HTML信息进行分析、过滤、组织、采集,实现Internet网络上WEB文档数据的自动无人值守操作。软件模拟百度“图片”频道,读取HTML信息内容,查找页面中的图片信息,进行分类、存储等操作。

  关键词:C#编程;HTML分析;常用表达

  CLC 编号:TP311

  *敏*感*词*识别码:A

  文章号码:1673-9884(2010)05-0117-04

  1. 简介

  HTML是Internet上使用最广泛的语言,也是构成WEB文档的主要语言。互联网上的大部分应用都是以 HTML 信息的形式体现的。因为HTML是纯文本内容,关键元素是用标签来表示的,所以HTML内容一般需要经过浏览器解析后才能被浏览。然而,人工审核、分析和内容提取容易出现错误、遗漏和效率低下的问题。, 那么有效的发现信息呢?针对这个问题,本软件模拟百度“图片”频道的搜索原理,使用Visual Studio.Net 2008开发工具,结合MS SQL Server2005,实现对HTML采集图片处理的分析和搜索。

  2.一般设计

  WEB网络上交错的巨大超链接使得采集工具软件能够根据这些链接自动发现新的站点和页面,然后通过新站点自动发现其他新的站点和页面。这种递归操作可以使采集的分析连续进行。整体设计逻辑如图1.

  首先在数据库中设置一个初始URL,第一次运行程序访问该URL,然后通过该URL在页面上搜索其他URL信息,并将该URL信息保存到数据库中。通过 URL 查找新的 URL,从而实现自动、地毯式搜索。

  由于网络连接不同,获取 HTML 信息会导致延迟。因此,除了 UI 线程之外,编程、获取 URL、生成 HTML 和分析 HTML 内容都在单独的操作线程中完成。

  3.数据库设计

  考虑到并发操作和搜索页面数据量大的问题,数据库在使用MS SQL Server2005.时需要使用的信息较少,而数据库只需要使用两张表来存储两种信息:( 1)页面*信息,(2)图片信息。

  

  3..1 页* 信息:

  URL表用于保存搜索到的URL信息。根据这些网址,搜索这些页面上的图片信息。如果已经搜索到图片的URL,将“IsDisposal”字段设置为1.“URL”字段保存页面地址并设置唯一值属性,保证不会出现采集具有相同信息的页面数据。

  3.2 图片信息:为了不在本地生成大量图片文件,占用大量空间,软件模仿百度的数据处理方式,只保存网络上图片的URL,不是实际的图片文件。

  4. 函数接口

  界面主要分为四个部分,一是操作区,用于打开和搜索URL信息。另一个用于显示当前搜索的 URL 地址。两个dataGridView分别用来展示URL表和Image表的信息。双击当前图片URL时,图片显示在下方的pictureBox中。

  采集图片需要网络访问请求,这需要时间。因此,需要将搜索操作放在单独的线程中,以防止界面无响应。

  5. 编程

  程序分为界面和后台多线程操作两部分。URL和图片信息通过多线程读取和分析,并保存到数据库中。数据库数据也通过多线程读取并显示在界面上。程序分为三个不同的类文件:(1)功能接口模块;(2)数据访问模块;(3)网页分析模块。

  5..1 功能接口模块

  (1)“打开URL”:显示当前数据库中采集的URL信息,并标记页面信息是否已经采集。

  (2)“打开图片库”:显示当前数据库中采集的图片URL信息,双击该信息后,对应的网络图片会显示在下方的picture-tureBox中。

  (3)"start search", "end search":创建或停止多线程操作以开始或结束对 Web 资源的搜索。

  (4)双击“当前图片”可以在下方的pictureBox中显示当前采集到的图片。

  在.Net程序中,为了保证界面刷新速度,对网址和图片的搜索采用了多线程。在子线程中操作UI控件刷新方法是不安全的方法,需要在窗体的构造函数中添加如下代码: 确保UI线程成为界面线程同步。代码如下: System.Windows.Forms.Form.Check ForlllegaIC rossThreadCalls 等于 false,

  5..2 数据访问模块

  数据访问模块比较简单。该操作只是将找到的新 URL 和图像保存到数据库中。连接字符串放在txt文件中,在构造函数中读出数据库的连接配置。

  该软件使用 SqlCommand 对象来“添加、删除和修改”数据库。使用数据库的“连接”操作方式,效率高,服务器压力小。软件界面上显示的数据通过SqlDataAdapter采用“非连接”操作方式缓存数据。在 DataSet 中,可以减少对数据库的频繁操作。

  

  5..3 网页分析模块

  该模块是设计的核心模块,用于读取HTML文本内容,对HTML文本内容进行正则表达式匹配。

  5.3.1 获取HTML方法:根据给定的URL,获取HTML页面内容,返回URL值对应的HTML内容。由于是多线程操作,代码使用Lock进行同步操作,同时操作进行容错处理,如果读取的内容大小超过2MB,则丢弃该页。代码如下:

  6. 结论

  本软件的设计是以搜索采集图片为例,来描述使用C#结合正则表达式对HTML数据的分析处理能力。按照这个设计思路,还可以搜索采集mp3、纸样i、纸样、Email等网页的内容,就可以处理整理出来了进一步利用的目的。

  j论文样张图片操作:如何在拍拍店添加自定义分类栏及分类栏加图片操作教程图片操作样张

  1、使用微信完成图片拼接操作

  2、手机图片可以这样备份

  3、经典计算机操作论文如何写参考

  4、热门图片编辑论文题目这是最好的图片编辑论文题目

  5、计算机系统操作热门论文选题 如何确定计算机系统操作毕业论文选题

  6、如何确定电脑操作论文的题目

  j论文样本作文一图操作参考总结:

  关于大学硕士及相关本科毕业论文图片操作论文开题报告样本及文献综述和职称论文不知道怎么写图片操作论文范文的,下载作为参考资料。

  实用文章:织梦DEDECMS采集没有自动生成摘要和关键字的解决教程

  织梦5.6采集到达内容时,不自动生成摘要和关键词,关键词和摘要为空。可能很多人都遇到了和我一样的问题。我在论坛中找不到好的解决方案,所以我自己更改了文件。废话不

  织梦5.6采集到达内容时,不自动生成摘要和关键词,关键词和摘要为空。

  可能很多人都遇到了和我一样的问题。我在论坛中找不到好的解决方案,所以我自己更改了文件。别胡说八道了。

  这是我的解决方案:

  1、修改include/dede采集.class.php

  //自动分析关键词和片段

<p>

preg_match("/

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线