解决方案:互联网大数据信息采集、分析服务平台（清设比选20191907号）采购公告

优采云发布时间: 2022-12-23 03:07

　　签约时间为成交后*个工作日（如未按时签订合同，采购单位有权取消或更改采购结果）发货时间为合同签订后*个工作日

　　最高价￥***,***.**

　　邮寄地址*******

　　供应商特殊资质需提供省部级单位中标案例合同原件备查；（必需的）; 提供试用帐户；（必需的）; 提供响应指示器的屏幕截图；（必需的）; 系统需要现场演示。（选修的）

　　采购清单*

　　物料名称采购数量计量单位

　　互联网大数据信息采集与分析服务平台*

　　单价￥ ***,***.**

　　技术参数及配置要求采购要求

　　根据数据新闻相关课程的教学和科研需要，特制定如下采购要求；

　　本项目服务期限为一年，服务商向采购商提供：

　　互联网大数据信息采集与分析服务平台；

　　本次采购要求随着服务商平台技术的发展，本次服务范围内的技术功能不收取升级费用。

　　本采购平台最高限价**10000元。

　　具体采购技术要求如下：

　　1.互联网大数据信息服务平台

　　要求投标人具有较强的互联网大数据系统开发能力，稳定成熟的信息采集分析技术，丰富的大数据分析判断经验，能够根据工作需要定制监控平台的信息源扩展采购人（不超过**国内重点高校在重点网站及相关社交媒体账号的境内外新闻页面）。

　　*、监控范围（采集范围）

　　*.*，监控平台可在****小时内对新闻网页、微博图片、电子报、贴吧、微博、微信公众号、新闻客户端等进行监控采集数据，过滤无效数据。

　　*.*，主流新闻客户端，主流社交网站，微信公众号，最快采集频率达到分钟级，定向监测采集的信息源可根据需要随时不断扩展（不超过第一键）网站的国内和海外报道）重要的大学新闻页面和与大学相关的社交媒体账户）。

　　*、互联网大数据信息服务平台技术性能指标

　　*.* 平台可采集网页中的标题、出处、发布时间、原文链接等，并可自动提取分析文章关键词。

　　*.*平台拥有基于语义分析的情感倾向抽取系统，可以分析文章的正面和负面信息，实现信息属性的自动判断。

　　*.* 平台支持按发布时间、相关性等维度排序展示，并自动对结果数据进行分类，方便用户查询浏览。同时，可以根据相似度算法对每条信息进行自动分类，统计相似新闻的条数。

　　*.* 平台支持对监测数据进行数量、媒体、对比、趋势、传输路径等方面的智能图表统计分析。

　　*.* 平台首页可根据采购商要求定制，平台操作使用必须方便直观。系统平台至少要包括搜索版块、分析版块、预警版块、热点版块、人员监控版块、报告版块等功能模块，平台行业规则配置要有行业规则库的积累。具体指标如下：

　　*) 检索部分：支持多种检索方式，至少包括模糊搜索、高级搜索、元搜索和文本到文本搜索。支持按发布时间、相关性等指标对检索到的内容进行排序展示，并按信息来源（新闻、论坛、博客、微博、微信等）、时间、去重等指标进行二次筛选。

　　*) 分析板块：支持从网络量、传播效果、演变分析三个维度对舆情事件进行智能分析。网络量包括综合报道趋势分析、媒体发布排名和情绪分析等；传播效果包括参与互动概览、网友观点提取、衍生词推荐等；演化分析包括关注事件演化的内容、引发的问题等。

　　*) 热点板块：支持自动聚焦区域热点，按时间维度展示，支持按热度值、相关文献数、当日相关文献数等排序。

　　*) 报表版块：支持报表素材内容一键添加、时间过滤、分组，提供简报、日报、周报、月报、专报等多种可选模板，自动生成报表，可下载至本地词形式。

　　性能要求：

　　*) 系统支持近三年历史数据的检索；

　　*) 系统在线用户数至少能满足***用户同时访问的要求；

　　*) 从信息发布到系统查询，延时不得超过**分钟；

　　*) 每个应用模块的页面响应时间小于*秒；

　　*) 订阅支持的规则条数不少于**组；

　　业务需求：

　　*、提供省部级单位成功案例合同原件备查；

　　*、提供试用账号；

　　*、提供响应指标截图；

　　*，系统需要现场演示。

　　汇总:TRS构建新华社待编稿库系统案例

　　引测软件测试网

　　一、新华社多媒体图书馆项目的背景

　　新华社作为中国的国家通讯社，承担着*敏*感*词*新闻服务的重要任务。待编辑的多媒体数据库是新华社多媒体数据库内部服务的核心。

　　, 记者采集和撰写的文稿总集。这些稿件通过总社各专业采编系统、各机构报刊采编系统、分社采编系统、各类移动出版系统、公用互联网邮件系统，汇集、传输、存储于多媒体图书馆进行采编. 内容包括文字、图片、图表、音视频稿件和多媒体混合稿件。系统对全社会授权的编辑、编辑人员开放。没有部门界限和障碍。在遵守稿件编辑规范的前提下，最大程度共享全社会的资源。待编文库系统是新华社实现新闻业务信息化的基础。企业的核心竞争力意义重大。

　　2. 新华社待编多媒体数据库功能需求分析

　　新闻资讯待编资源内容整合共享

　　建立新华社待编稿件图书馆服务系统的目的是实现新华社各部、分社、外媒新闻信息（包括文字、图片、图表）和资源的整合。由各机关报刊编辑。，并通过该系统，各部门、分支机构可以共享全社会的新闻信息资源。

　　新闻业务系统应用集成

　　通过该服务系统，用户不仅可以方便地阅读待编辑稿件，还可以在现有编辑系统（包括总社编辑系统、图片编辑系统、信息中心编辑系统），即实现待编稿库服务系统与其他编辑系统的交互性能，实现待编稿库系统与相应编辑系统的集成，获得更好的系统性能，以及使待编稿件与各部门编辑系统形成紧密集成的系统，更高效、更灵活地为相关人员提供服务。

　　总体需求可分为核心应用需求和辅助应用需求。具体分析如下：

　　一、核心申请要求

　　待编稿件采集：及时、准确地采集全社会待编稿件，是实现全社会稿件共享的前提。包括：

　　* 实现多来源、多类型、多格式稿件采集：新华社待编稿件来源广泛，有总社编辑系统的，有分社编辑系统的，有来自分社编辑系统的信息中心编辑系统，部分来自图片编辑系统，以及来自社会报刊等部委编辑系统的信息，社会资讯，涉外新闻，涉外期刊，涉外通讯社，海量网络资源等，而这些稿件也具有多语言多类型的特点，所以在采集中需要考虑对多格式稿件的支持。除了常见的TXT纯文本，还需要考虑支持WORD、EXCEL、PDF等常见的文件格式。

　　* 实现稿件的标准化传输和存储：为解决各系统之间数据传输应用的统一问题和未来发展的需要，新华社提出全社采用XML/XinhuaML稿件格式进行存储和传输. 因此，待编稿件与系统XML/XinhuaML标准数据之间的数据交换需要考虑传输，需要自动完成数据转换以满足数据规范要求。

　　稿件分类：科学、准确、规范的稿件分类是实现待编稿件服务的基础。由于稿件数量庞大，需要根据稿件内容进行自动分类，以保证效率。因此，稿件分类方法应同时支持自动分类和人工分类。其中自动分类是完成主要工作的主要方法，人工标定或特定分类完成。

　　稿件发布：通过特定的信息发布技术发布在相应的信息平台上，使稿件用户可以方便地浏览和检索自己关心的稿件。信息发布形式包括：栏目形式、树型目录形式、卡片页形式等；发布方式有菜单驱动、树驱动、模块驱动等方式，实时发布编辑稿件。

　　稿件检索：为了让信息使用者能够快速、全面、准确地检索到相应的待检索稿件，提高信息获取的效率和质量，待编辑稿件在浏览应用中应具备全文检索功能. 不仅具有根据稿件正文内容进行检索的功能，还具有结合稿件索引时间、稿件来源等属性进行组合检索的能力。检索系统还应支持分类检索功能，实现文字、图形、图片等文稿的单独检索，同时满足混合检索的要求；此外，它还应该能够支持中英文混合检索。

　　编辑系统集成：建立图书馆编辑稿件服务系统的目的之一是实现编辑稿件的共享，增加编辑稿件的价值。稿件编辑图书馆服务系统与各编辑系统无缝集成，实时交互，完成稿件编辑功能。因此，建立待编辑稿件图书馆系统，与新华社

　　编辑系统（现有或未来新开发的）高度集成，方便编辑人员的编辑工作，这是草稿编辑库系统要实现的重点功能之一。

　　当用户想要编辑稿件时，可以点击稿件创建操作。这些稿件创建操作可以根据用户的不同身份和所属的编辑系统指向不同的编辑系统，并可以由用户确认。之后会以用户身份在指向的编辑系统中为用户创建待编辑的稿件，用户进入相应的编辑系统后即可对稿件进行编辑，稿件的元数据可以自动复制到相应的编辑器中系统。

　　XML/XinhuaML数据规范和多语言支持：多媒体稿件库服务系统必须完全符合新华社制定的具有全部知识产权的XinhuaML标准。 XinhuaML源于XML技术，旨在成为中文多媒体新闻标记语言的标准。此外，鉴于新华社稿件语言种类繁多，所有文献内容均按照Unicode编码存储在关系型数据库中，需要多语言支持。

　　2.辅助应用要求

　　待编稿件统计：系统应能统计各类稿件的使用情况。面向稿件的统计包括稿件浏览次数、稿件创建数量等；面向用户的统计包括用户浏览稿件数和创建稿件数的统计。待编稿件统计有利于对稿件质量和编辑工作量进行量化考核和精细化管理。

　　信息智能提醒功能：待编稿件库服务系统具有信息智能提醒功能，提供急需处理稿件、待处理稿件、当日新闻播报、用户采纳统计等信息当天等，并以弹窗、音效、操作提示、图表等多种方式展示。通过这些提醒功能，系统从“响应驱动”的被动服务转变为“自动提醒”的主动服务模式，体现了人性化、实用化的设计理念。

　　此外，系统还应具备完备的用户管理功能、日志管理功能，以及健壮的安全容错防灾系统，确保访问控制，维护数据和系统安全，并具备不间断运行的能力。

　　3、基于内容管理技术的系统设计

　　随着社会的进步，经济的发展，信息技术的普及和提高，各行业的信息量都在迅速增加。这些信息不仅限于存储在数据库或后端系统中的结构化数据，还有大量的非结构化数据。据统计，目前约85%的企业信息是非结构化数据，包括纸质文件、报告、传真、视频、音频、图片等，称为内容。在获取、组织、存储、保护、提取和重用这些内容的技术手段方面面临着挑战。近年来，内容管理的概念和相应的内容管理技术由此而生。

　　其中，非结构化大对象数据的存储与管理技术以及元数据与索引数据的同步是内容管理中数据集成所需的关键技术。非结构化内容管理包括元数据管理、数字对象管理，以及如何通过统一的图书馆访问协议对元数据和数字对象进行一致性和完整性操作。

　　在多媒体内容的上下文中，可以通过以下公式更好地理解：

　　一个媒体对象 = 无法区分的媒体对象

　　媒体对象 + 元数据 = 内容

　　内容 + 权限 = 媒体资产

　　媒体对象（数字化后成为数字对象）是无法区分的对象，例如文章，如果不添加其他限定描述，就无法将文章的属性与另文章区分开来是的，为了区分它们，您需要为它们各自添加自己独有的属性信息，比如文章的标题、关键词、时间和作者等，这些独有的属性信息称为元数据。与元数据相结合的媒体对象称为内容。至于内容，如果可以重复利用和增值，就需要把内容做成媒体资产。如果要将内容变成媒体资产，则需要添加权限管理。加入权限管理后，可以方便人们对内容的使用，使内容信息可以被重复利用，产生资产价值。

　　在稿件库建设中，从内容管理的角度，根据大对象数据访问、修改和管理的不同特点，将生产过程中的元数据和文本稿件存储在Oracle数据库中，二进制图片等大型对象存储在 Oracle 数据库中。存储在内容管理平台中，通过元数据与对象数据同步机制自动建立元数据与内容管理对象的对应关系。通过内容管理机制保证大对象数据操作的完整性和一致性，利用内容管理架构的优势实现大对象数据的高效访问。关系数据库管理系统擅长处理结构化数据，RDBMS服务器管理业务数据，可以保证数据的完整性和一致性；全文检索系统擅长处理非结构化全文数据——全文检索，由全文搜索引擎管理非结构化全文数据的全文索引，提供全文检索服务。通过全文检索系统和关系数据库的集成，用户可以在充分维护现有业务应用和业务数据的前提下，高效、安全、可靠地发布和增值利用海量结构化和非结构化数据。

　　下图为新华社多媒体图书馆的整体功能框架：

　　要编辑的整个手稿是使用以下关键技术开发的：

　　* 使用JAVA语言开发的采集工具完成大量待编稿件的多线程采集任务，实现待编稿件按照统一的XML/XinhuaML规范格式进行转换和预处理功能新华社；

　　* 使用Oracle数据库实现待编稿件的存储和管理

　　* 使用TRS Chinese Knowledge Kit（CKM）实现稿件的自动分类分类；

　　* 采用基于J2EE的内容发布系统结合IBM Portal Server实现稿件的个性化发布和统计功能；

　　* 使用LDAP Server和IBM Tivoli Access Manager实现用户策略管理；

　　* 使用TRS Server全文检索服务器完成待编稿件的检索申请；

　　* 基于组件技术和Web Services技术，实现图书馆服务系统与编辑系统的应用集成。

　　新华社多媒体图书馆服务系统的系统结构如下图所示：

　　图书馆待编稿件服务系统的特点和优势

　　1、基于J2EE架构的多层架构设计

　　J2EE 是开发具有负载平衡能力的可扩展、多层分布式跨平台企业应用程序的理想平台。 J2EE提供了一个标准的中间件基础设施，负责处理企业开发中涉及的所有系统级问题，使开发人员可以专注于业务逻辑的设计和应用程序的呈现，提高开发工作的效率。 J2EE有效地满足了行业的需求，提供了一个独立于操作系统的开发环境。基于J2EE的应用系统灵活、易于移植和重用，可以运行在不同厂商的Web服务器上。更重要的是，J2EE是一个开放的系统，完全能够适应未来技术的进步和发展。

　　2.完全基于XML/XinhuaML标准

　　拟编辑的多媒体图书馆系统完全符合新华社制定的XinhuaML标准。 XML作为一种可扩展的标记语言，其自我描述性使其非常适用于不同应用程序之间的数据交换，而这种交换并不以一套数据结构定义为前提。 XML的最大优点是具有描述和传递数据的能力，因此具有很强的开放性。为了满足标准的XinhuaML格式的数据传输和存储管理的要求，我们在待编稿件采集系统中开发了一个转换程序，将采集的各种文档类型的稿件进行转换，使之均为标准的XML格式. 系统充分利用并遵循XinhuaML设计规范，实现了XML数据的透明入库、存储和动态展示。但由于新华社多媒体数据库目前使用的Oracle 8i不支持原生的XML查询和数据操作，为了保证系统的效率，数据在内部存储为二维关系表。考虑到多媒体数据库系统与其他应用系统之间数据交换的频率，在存储数据时也保存了一个XML文件。 XML从一开始就建立在统一码（Unicode）之上，提供对多种语言的支持。

　　3、采用面向对象的组件技术进行设计

　　J2EE 多层体系结构的每一层都有多个组件模型。因此，开发人员需要做的是为应用项目选择合适的组件模型组合，灵活地开发和组装组件。这不仅有助于提高应用系统的可扩展性，还能有效提高开发速度，缩短开发周期。此外，基于J2EE的应用程序还具有结构化、模块化、灵活性和高可重用性等优点。

　　4、中国知识管理技术的首次应用

　　首次将TRS中文知识管理工具包应用到待编稿件数据库系统中，满足海量稿件的抄袭检查和分类需求。创造性地将基于规则的分类和基于统计的自动分类技术相结合，内容抄袭检查准确率可达95%以上。自动分类功能支持基于统计原理的自动分类和基于语义规则的机器分类两种方法，可实现计算机辅助人工自动分类，具有强大的智能信息处理功能，节省大量人工操作。

　　四、新华社待编稿件库应用前景及效益

　　经过两个多月的试运行，新华社多媒体图书馆于2003年7月1日正式投入运营。新华社领导指出，待编稿件图书馆的建设和运营是对新华社来说是一件大事，对新华社履行国家新闻机构、耳朵眼睛、新闻采集、世界新闻机构四大职能将产生重大而深远的影响；新华社党组着眼于抓住本世纪头10至20年的战略机遇期，充分依靠高新技术，推动新华社实现跨越式发展；待编稿件库的运行，将极大促进和实现新闻信息资源和人力资源的整合与共享，进一步理顺管理体制，充分调动机关全体职工的积极性和创造性，从而全面提高进一步扩大新华社影响力，进一步推进建设更有实力的全球新闻机构事业。

　　新华社待编稿件库是新华社实现多媒体新闻信息采集、编辑、发布一体化的系统工程。待编稿件库具有新华社新闻信息资源整合、共享和管理三大功能，真正实现全社新闻信息资源共享，各部门归全社所有。

　　新华社待编稿件库的建设和运行，不仅是当代高科技信息技术首次全面、系统地应用于新华社新闻采编系统，也促进了新华社采编工作进入信息编辑编辑的新时代。

　　作为推动新华社发展的新生产力，待编稿件库将带来深远的变革，撬动新闻社运行机制、编辑责任主体、编辑工作方式、记者写作方法、人力资源分配、编辑人员收入分配、新华社。产品结构、组织管理等8个方面的改革，促进了新华社事业发展的“诚信”。

　　【参考】

　　新华社草稿数据库项目组

　　《中国传媒科技》《整合资源设计新篇章——编者谈编辑库有待撬动的八个变化》吴金才

　　《中国传媒科技》《探索新闻信息的全方位共享——新华社多媒体原稿数据库技术应用综述》曹雪雪、陈杰

　　论坛亮点

0

2022-12-23

免费的文章采集平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:互联网大数据信息采集、分析服务平台（清设比选20191907号）采购公告

0 个评论

发起人

AI时代内容工厂

解决方案:互联网大数据信息采集、分析服务平台（清设比选20191907号）采购公告

0 个评论

发起人

相关问题