网站自动采集系统(厦门广电集团网站新闻自动采集系统设计(图)组件)
优采云 发布时间: 2021-11-10 21:10网站自动采集系统(厦门广电集团网站新闻自动采集系统设计(图)组件)
网站新闻汽车采集系统设计总结:现在很多传统媒体都建立了自己的新闻网站。除了及时发布自己媒体的新闻外,还需要采集其他作为专业新闻新闻网站的补充,文章实现远程批量自动采集@ >网站新闻通过ASPHTTP组件,提高网络编辑发布效率,提供相关应用。提供快速可行的想法和设计方案。关键词:新闻网站; 内容发布;远程采集; ASP编程;ASPHTTP组件中文库分类号:TP393 文档识别码:A文章 序号:1009-3044(2009) 33-9525-02 网站新闻自动获取系统徐力(厦门传媒集团,厦门360012) 摘要:现在很多传统媒体都建立了自己的新闻网站;除了及时发布自己的新闻外,还需要从其他分类新闻网站上采集新闻作为补充,带有ASPHTTP组件的文章实现了网站的自动新闻采集,提高了网络编辑器的发布效率,
这类网站新闻的真实性有保证,具有一定的权威性,舆论导向相对规范[1]。建站初期,安排两名编辑每天上网浏览,选择合适的新闻,复制粘贴到“夏时”后台发布平台网站发布。根据计算,人工方式每天发布100条左右的新闻大约需要2-3个小时。实践证明,这种手动方式太费时费力,所以决定设计一套简单易行的网站新闻自动采集系统[2]。通过观察国内一些大型新闻网站,发现这类新闻网站居多 将根据新闻类别和发布日期创建各种新闻的新闻目录页面,例如,您可以从/china.shtml页面获取“中国新闻网当日发布的最新60条国内新闻目录”和其链接地址可在/scroll-news/gn/2009/1013/news.shtml页面获取。所有国内新闻目录及其链接地址,来自/scroll-news/ty/2009/1013/news.shtml本页面可以得到“新浪”发布的所有体育新闻目录吗?丁?D体育频道”2009年10月13日及其链接地址。不同类型的网站可以找到不同的网站新闻源作为自己的网站新闻源[3]。厦门广电网站组使用ASP编程[4],ASP本身没有远程采集功能,但是ASP有很*敏*感*词*组件。其中之一称为 ASPHTTP[5]。使用http协议GET/POST/HEAD文件,可以通过其能力[6]远程读取其他网站页面,并在此组件的基础上重新开发,实现网站@的远程批处理> 新闻采集。
ASPHTTP 组件可以在以下位置下载:/comp/asphttp3.zip[7]。下面简单介绍一下设计思路。首先观察从中国新闻网获得的七类新闻的目录页地址,将这些页采集上传到本地计算机[8]。第二步,分析采集到达的内容页面的代码,梳理出新闻列表中收录的新闻标题及其具体链接地址,生成新闻列表表单供编辑选择,通过网站 编辑根据自己的需要选择新闻。对于选中的新闻条目,程序自动将采集网页文本一一发送到服务器,然后通过代码分析从采集中分析每条新闻的标题、来源、正文等文本内容,并自动记录到数据库中形成一条新闻记录[9]。本文的具体实现代码包括三段ASP代码。三段代码的作用是: 代码1的作用是提交采集的新闻目录页地址。代码2有两个功能,一是远程读取新闻目录页面和采集到本地电脑;另一种是向下分析页面采集,得到新闻标题及其每个新闻的远程URL,等待编辑的选择。代码3的作用是获取多个新闻的URL,将这些新闻页面采集一一获取到本地计算机,然后一一分析,得到每条新闻的标题、正文等字段,最后记录到服务器数据库中间。请参阅 (/code. rar) 为具体代码。2 结束语 通过以这种思路和方法编写的网站新闻采集系统,在实际应用中,厦门广播集团网站对外发布新闻的日常工作可以缩减为一位著名编辑,15分钟完成,大大提高了工作效率。
以上方法和代码可能有很多缺陷,请指正。期待有更多更好的设计思路可以用来解决网站新闻Auto采集的问题,仅以此文发表意见。参考文献: [1] 吴定明,赵冬艳.一种采集互联网新闻网页分析方法[J]. 计算机工程与应用, 2007(36):169-172. [ 2] 马志强, 赵曦, 贾鹏. 基于Web的站内信息研究与实现采集技术[J]. 内蒙古大学学报:自然科学版,2009(2):203-207. [3] 王宇. 面向学科的网页设计与研究采集 @>系统[J]. 计算机与数字工程, 2008(4):78-80,93. [4] 百度百科. ASP百度百科[EB/OL].[2009-10-13]./view/117978.htm. [5] netidea.AspHTTP组件的获取和使用[EB/OL] .[2006-11-08]./netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html。[6] 张秀虎. 新闻节目技术核心解析采集[J]. 中国教育信息化, 2007(4):55-58. [7]郭少友.元搜索引擎的原理与设计[J].信息科学,2005(2):245 -248. [8] 杨海霞, 张永奎. 网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-3 5. [9] 陈建宇. 网页动态页面采集关键技术研究[J].硅谷,2009(12):68. 5 [5] netidea.AspHTTP组件的获取和使用[EB/OL] .[2006-11-08]./netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html。[6] 张秀虎. 新闻节目技术核心解析采集[J]. 中国教育信息化, 2007(4):55-58. [7]郭少友.元搜索引擎的原理与设计[J].信息科学,2005(2):245 -248. [8] 杨海霞, 张永奎. 网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-3 5. [9] 陈建宇. 网页动态页面采集关键技术研究[J].硅谷,2009(12):68. 5 [5] netidea.AspHTTP组件的获取和使用[EB/OL] .[2006-11-08]./netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html。[6] 张秀虎. 新闻节目技术核心解析采集[J]. 中国教育信息化, 2007(4):55-58. [7]郭少友.元搜索引擎的原理与设计[J].信息科学,2005(2):245 -248. [8] 杨海霞, 张永奎. 网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-3 5. [9] 陈建宇. 网页动态页面采集关键技术研究[J].硅谷,2009(12):68. 5 [6] 张秀虎. 新闻节目技术核心解析采集[J]. 中国教育信息化, 2007(4):55-58. [7]郭少友.元搜索引擎的原理与设计[J].信息科学,2005(2):245 -248. [8] 杨海霞, 张永奎. 网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-3 5. [9] 陈建宇. 网页动态页面采集关键技术研究[J].硅谷,2009(12):68. 5 [6] 张秀虎. 新闻节目技术核心解析采集[J]. 中国教育信息化, 2007(4):55-58. [7]郭少友.元搜索引擎的原理与设计[J].信息科学,2005(2):245 -248. [8] 杨海霞, 张永奎. 网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-3 5. [9] 陈建宇. 网页动态页面采集关键技术研究[J].硅谷,2009(12):68. 5 @2):245-248. [8] 杨海霞,张永奎。网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-35. [9]陈建宇.网页动态页面采集关键技术研究[J].硅谷,2009(12):68.5 @2):245-248. [8] 杨海霞,张永奎。网络新闻数据可视化采集系统的设计与应用[J].山西科技,2006(5):34-35. [9]陈建宇.网页动态页面采集关键技术研究[J].硅谷,2009(12):68.5