网上新闻资源手动采集系统方案

优采云 发布时间: 2020-08-25 10:43

  网上新闻资源手动采集系统方案

  .专业整理.毕业设计(论文)开题报告材料1、开 题 报 告2、文 献 综 述3、文 献 翻 译1. 综述本课题*敏*感*词*研究动态,说明选题的根据和意义随着互联网技术的迅猛发展,人们获取资讯的方法不再是仅仅从报纸或则电视。更多的人选择上网浏览或则是通过手机获取。相比上面的两种形式,后者更具及时性,而且信息量更大,传播范围更广。从而衍生了第五媒体的说法,这也推动了相当的周边产业的发展。而这种优点的彰显同样须要一个强悍的技术平台和相当数目的工作人员来支撑,本文将通过对资源采集系统的介绍,为建立这样一个低成本的信息共享平台提供建议。1. 新闻采集系统的现况动态网页技术的出现彻底的改变了传统互联网的模式。它使站长可以愈发轻松的更新站点的内容信息。同时也使网路的应用显得愈发丰富。以动态网页技术实现的应用如雨后春笋般出现。新闻采集系统也在哪个时期开始发展。从最初的ASP版本到现今的多样化语言的版本,虽然构架一次次被更新,功能越来越建立,当然系统的设计目标一直都没有发生改变,实现资源的手动采集来降低人工录入所降低的成本。如今,新闻采集系统技术早已十分成熟。市场的需求量也十分大。在百度中输入“新闻采集系统”可以搜到逾393,000条信息,可见这一应用的广泛程度。

  特别是一些新兴的站点,主要以广告赢利为目的,如果使用新闻采集系统那可以使站长不用去操劳怎么更新网站内容,一但架设好就几乎可以“一劳永逸”了。2. 项目提出的背景一般对于新闻类专业或则小型的门户网站,都拥有自己的新闻渠道或则专门的采编人员,这常常须要很高的成本。新闻采集系统(手机应用版)用于在资源相对短缺的情况下,使用程序的形式来进行远程抓取。在没有人工干预的情况下可以实现手动采集和资源的共享。一方面可以保证信息更及时更有效,另一方面可以提升工作效率和减少编辑的负担。为企业提供可靠的信息来源和增加相当的成本。3. 主流系统的剖析总的来说目前的新闻采集系统早已比较成熟,主流的新闻采集系统基本上可以实现以下功能1. 对目标网站进行信息手动抓取,支持HTML页面内各类数据的采集,如文本信息,URL,数字,日期,图片等。2. 用户对每类信息自定义来源与分类3. 支持用户名与密码手动登入4. 支持记录惟一索引,避免相同信息重复入库5. 支持智能替换功能,可以将内容中嵌入的所有的无关部份如广告消除6. 支持多页面文章内容手动抽取与合并7. 支持下一页手动浏览功能8. 数据直接步入数据库而不是文件中,因此与借助那些数据的网站程序或则桌面程序之间没有任何耦合9. 支持数据库表结构完全自定义,充分利用现有系统10. 保证信息的完整性与准确性,绝不会出现乱码11. 支持各类主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等4. 讨论的范围里面讨论的新闻采集系统与本文所讨论的略有不同,主要是我们的目标有些差异。

  传统的新闻采集系统都是基于WWW网站。采集的困难程度要略高与WAP网站。因为WWW网站页面内容相对复杂并且愈发丰富,最重要的是它没有类似XML的约束性,网页源文件的格式内容可能会由于编撰人员的疏漏存在好多错误,这将造成我们在抓取的时侯可能会遇到好多解析问题,比如符号的遗失,不能匹配等等,对于采集系统最重要的是能否匹配到想要抓取的内容,如果不能解析网页的源代码不能构建完整的目录树,也就是结构不完整这将太可能导致我们在采集特定内容的时侯出现误差或则采集不成功。所以,对于采集WWW的网站不光须要采集程序的规则编写者有一定的判断力,而且要求网站的编撰人员才能根据W3C规范来编撰页面。但是,现在的情况是常常用户的浏览器能排除大量的错误,所以会给真正的开发人员一个错误的讯号觉得自己的页面没有问题,这时候我建议将页面递交到W3C的检验工具来进行检查,这是一个相对冗长的步骤。WAP网站的优势这时候就彰显下来了,因为它严格遵循这种规范,如果出现标记不能匹配或则是不能辨识的标签时将会报错,这对于测试人员来说无疑是个好消息,这将大大的增加测试的成本,加快项目的建设。对于采集程序的开发者来说也绝对是个好消息,我们在编撰规则的时侯就无须考虑太多意外的情况,这为我们这个项目的提出也奠定了一定的基础。

  当然,随着手机上网的普及和3G网路的建成,越来越多的人早已开始习惯使用手机来获取信息,这早已成为一个趋势,可能在未来的什么时候笔记本也将被手机所取代,无线网路最终将取代现有的电缆线路。我们捉住这个方式,将要开发基于手机浏览器平台的浏览内容,我们采集的对象也是WAP网站,可以将内容无缝嵌入到现有的栏目中,真正实现即抓即用。2. 研究的基本内容,拟解决的主要问题1. 功能规划1. 新闻采集采集系统的运行过程是个依据任务列表不断的读取目标站点,采集需要的信息的一个过程。在读取新闻的时侯须要维护一个联接,需要剖析各种各样的网路联接状况,而系统的维护人员须要针对专门的页面订制一套规则,用来解析各个须要的信息部份,并且这套规则必须符合一定的规范。我们将拟定一些任务的规则规范1. 页面地址列表的入口地址2. 附加参数针对详尽内容的地址附加的一些参数(比如显示全文)3. 列表规则(正则表达式)1. ExceptWords用于替换列表中不需要的字符2. TextRegEXP用于筛选新闻条目(收录链接和地址)4. 内容规则(正则表达式)1. ImgRegexp用于获取新闻图片的地址2. TextBegMark用于标记文章内容的开始3. TextEndMark用于标记文章内容的结束系统处理流程2. 图片采集图片的采集不同与新闻的采集,虽然在规则上类似,而且在整个抓取过程中的操作都接近相同,但是在格式上要复杂。

  文字主要是存在编码的问题,而图片要考虑压缩和格式的问题,我们暂时考虑采集JPG和GIF两种格式,因为在手机上这两种是最常用的。在网路上抓取到图片以后下载到本地须要保持格式的一致性。由于JPG和GIF的压缩编码算法不同,需要分开来处理。2. 功能设计1. 任务配置模块任务的配置是整个系统中最重要的部份,新闻采集系统能正常工作的首要前提就是须要对每位采集任务进行配置。任务配置包括有目标地址以及页面规则的定义,力求可以将用户的文本定义转换成要求更严格的正则表达式,以保证采集内容的正确性。2. 采集功能模块采集的过程主要是剖析资源,并加入到我们数据库中的过程。采集过程应充分考虑资源的正确性、完整性和采集过程的稳定性。保证资源的编码正确和过程的透明性。3. 资源检索模块资源的采集是我们最终的目标,我们须要实现对采集到资源能进行搜索、查询和编辑等操作,可以对资源进行筛选可控制。4. 统计模块根据任务的归类可以对采集的进度和过程进行实时检测,让用户及时把握采集资源的状况,如果发生的意外能马上得知并采取一定的举措来挽回。3. 研究步骤、方法及举措1. 系统配置程序的运行和维护须要一系列的配置,这对于整个系统都是至关重要的。

  配置人员须要一定的计算机技术基础,最终程序能够抓取到希望获取的信息都离不开系统的配置和一系列测试。2. 存储插口为了兼具到系统可能在不同的数据库环境中来使用,所以我们选择了数据库框架,这将大大便捷系统的二次开发,替换数据库等情况。系统中使用了ibatis作为数据库访问框架。这也是一个开源的框架,相对于hibernate来说是轻量级,我们在这里使用它的理由是它比hibernate具有更小的操作细度,以提升我们数据库的储存效率。3. 计划任务我们的系统是由任务驱动的,每一个采集目标都是一个任务。维护人员须要做的就是任务的维护和计划的拟定,这个计划任务类似于行程的安排,以备我们的任务调度框架来实现任务的控制。4. 日志系统因为网路的不确定诱因特别多,常常会导致程序出现超时等情况,我们须要一个强悍的日志系统来记录那些问题,维护人员也须要剖析日志来判定错误的诱因。5. 统计系统采集资源必须有一个建立的统计机制,用以记录当日或则是历史的记录。如果须要制订绩效考评方面的制度,统计系统将会提供一份完整的可维护性的文档。6. 内容检索通过内容检索模块,可以实时获取当前入库的信息,让管理员可以对内容进行删掉或则更改,其功能类似于新闻管理系统的后台,可以对抓取的信息进行有效的控制。

  新闻采集系统构架图4. 工作进度5. 序号6. 时间7. 内容8. 19. 08/12/11-09/01/1210. 选题,熟悉课题相关背景11. 212. 09/01/13-09/02/1913. 英文翻译,学习相关技术学习,开题报告14. 315. 09/02/20-09/02/2716. 开题17. 418. 09/02/28-09/03/1519. 完成总体设计20. 521. 09/03/16-09/04/0322. 完成程序编码23. 624. 09/04/04-09/04/1025. 中期检测26. 727. 09/04/11-09/05/0128. 完成相关文档编撰29. 830. 09/05/02-09/05/2231. 撰写毕业论文定稿32. 933. 09/05/23-09/05/2934. 修改结业论文35. 1036. 09/05/30-09/06/0537. 答辩38. 主要参考文献1. Quartz - QuickStart EB/OL.http// Httpclient User Documentation.EB/OL. http///user-docs.html2. iBatis for Java User Guide.EB/OL. http///javadownloads.cgi3. (加)贝使 ,叶俊 .iBATIS实战 . 人民邮电出版社 . 2008-5-14. 开源技术选型指南编委会 . 开源技术选型指南 . 电子工业出版社 . 2008-5-15. 孙卫琴 . Java网路编程(第3版)OReilly Java系列 . 电子工业出版社 . 2007-3-16. 孙卫琴 . JAVA面向对象编程 . 电子工业出版社 . 2006-7-17. 埃克尔,陈昊鹏 . Java编程思想(第4版) . 机械工业出版社 . 2007-6-18. 布洛克,潘爱民 . Effective Java . 机械工业出版社 . 2003-1-19. 戈茨(Goetz,B.) . JAVA并发编程实践 . 电子工业出版社 . 2007-6-110. 结城浩 . JAVA多线程设计模式 . 中国铁道出版社 . 2005-4-1六、指导班主任初审意见该朋友就“网上新闻资源手动采集系统”这一课题,在打算开题报告期间通过针对性的文献阅读、分析和理解,基本明晰了本毕业设计的总体需求和具体任务,基本提出了系统设计思想和及预期目标,开题报告内容较完整,内容和格式基本符合要求。同意开题。指导班主任签字2009年2月27日七、系、室、部(研究所)评议意见1. 适合本专业的结业设计课题;2. 不适宜本专业的结业设计课题;3. 其它系、室、部(研究所)主任

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线