多源数据采集与抽取系统需求尺寸说明书
优采云 发布时间: 2020-08-14 21:37华东理工大学多源数据采集与抽取系统 需求尺寸说明书 文件状态: [ ] 草稿 [ ] 正式发布 [√] 正在更改 文件标示: 当前版本: 0.2 文档类别: 需求尺寸说明书 完成日期: 2015.01.22 作 者: 王志宏,唐文武,徐永斌 受控状态: 受控修订历史记录 日期 版本 说明 作者 2014-12-12 0.1 创建需求尺寸说明书 王志宏,唐文武,徐永斌 2015-01-22 0.2 修改需求尺寸说明书 王志宏,唐文武,徐永斌1. 文档介绍 本文档是对项目的委托单位,上海美华系统*敏*感*词*(以下简称为乙方)和项目的开发单位,华东理工大学(以下简称为甲方)关于多源数据采集与抽取系统开发内容的进一步说明。目的是在确定范围内进一步明晰甲乙双方在软件开发过程中的权力和责任。 1.1 文档 目的 1. 作为丙方初验甲方开发产品的根据,并约束乙方不得随便变更需求内容。 2. 作为甲方软件开发的出发点,并约束甲方开发的软件产品确切完整地符合需求内容。 1.2 文档 范围 本文档对乙方多源数据采集与抽取系统进行需求尺寸说明。该系统主要包括多源数据采集模块、数据处理与抽取模块和系统检测与管理模块 3 个主要功能模块。
这里注重说明,以上功能的操作要依据具体角色而定,角色则根据权限组合而定。 2. 系统 介绍 该系统的设计和开发主要是为了满足乙方的要求和目的,完成包括多源数据采集模块、数据处理与抽取模块和系统检测与管理模块共 3 个主要功能模块组成的多源数据采集与抽取系统。本系统主要实现自动化与自动配置相结合,对多源数据(即行业类网站信息、政府公告类网站信息、新闻网页信息以及以微博为主的社交网站信息)进行自动化采集、清洗、处理和抽取,以及数据结构化入库,为美华公司业务系统提供所必要的数据服务。 上海美华系统*敏*感*词*作为现代物流信息增值服务体系的先驱者,根据当下的需求开发和设计企业多数据采集与抽取系统,为在现代化业务系统体系建设中能进一步处于领先的地位。故本系统的开发设计具有绝对的必要性和可行性。 3. 系统 应当遵守的标准或规范本系统符合 J2EE 开发规范。 4. 系统 范围 本系统总体上可分为三个模块:多源数据采集模块、数据处理与抽取模块和系统检测与管理模块。具体的来说,多源数据采集模块包括多线程采集器模块和采集配置模块;数据处理与抽取模块包括数据预处理模块和数据抽取模块;系统检测与管理模块包括系统检测模块和系统管理模块。
上述各个模块下又分为多个子模块,下面将详尽各个子模块的功能需求。 4.1 多源 数据采集模块 多源数据采集模块包括多线程采集器模块和采集配置模块。该模块针对多源数据进行采集器的设计以及采集配置。采用多线程设计模式,提高了采集的效率。下面进行两大模块的详尽介绍。 4.1.1 多线程 采集器 模块 多线程采集器模块是对不同采集对象的相关信息进行多线程采集的模块。该模块将采集对象大体分为 4 类,即行业类网站信息、政府公告类网站信息、新闻网页信息以及以微博为主的社交网站信息。针对不同的采集对象个性化订制了针对该对象的通用采集器,并设计了相应的数据更新策略。下面就其内容进行详尽地介绍。 4.1.1.1 行业类网站信息采集器 行业类网站中的文本信息专业性较强,多以结构化表格方式展示。采集器的设计注重对于表格信息的采集。 4.1.1.2 政府公告类网站信息采集器 政府公告类网站中的文本信息富含结构化表格和非结构化文本两种方式。采集器的设计须要对结构化表格数据和非结构化文本数据进行采集。 4.1.1.3 新闻网页类信息采集器 新闻网页类的文本信息具有较强的句型,多为自由文本类型。采集器的设计主要对自由文本型数据进行采集。
4.1.1.4 以微博为主的社交类网站信息采集器 社交网站多以非结构化的短文本信息为主,且图片信息相对来说比较多,同时信息的更新频度高。采集器的设计须要针对非结构化文本信息进行采集,以及调整采集的频率。 4.1.1.5 数据 信息 更新 采集 互联网上的信息处于不断更新的状态,该模块主要实现对早已获取到的数据对象进行定时更新重新采集,获取最新的业务数据信息。 4.1.2 采集 配置模块 采集配置模块是对采集过程所需的参数进行配置。包括采集对象的配置和通用的采集配置两个方面。 4.1.2.1 采集对象配置 采集对象的配置包括对须要采集的 URL 配置和须要采集的关键词的配置。 4.1.2.1.1 采集 URL 配置 分别搜集四大类网站的 URL 作为*敏*感*词*。根据页面在 web 上的分布特点,web上的主题页面容易成团出现。在页面采集过程中通过页面的超链接可以获得这种移动网页,因此同一个域名下的 URL 地址仅须要一个。通过更改*敏*感*词* URL 参数来获得更多的 URL。 4.1.2.1.2 采集关键词配置 采集用户所需采集的信息的关键词,并通过多种搜索引擎对关键词进行搜索,最后对搜索结果进行采集。
各搜索引擎的能力和偏好不同,所以检索的结果也不一样,利用关键词在各搜索引擎进行检索,来获得比较全面,准确的检索结果。 4.1.2.2 通用采集配置 通用采集配置包括网页翻页配置,网页编码配置和采集深度配置三个部份。 4.1.2.2.1 网页翻页配置 网页翻页配置是针对网页信息多页显示的情况。根据网页信息的页数以及URL 参数的变化进行配置,确保网页信息采集的整体性。 4.1.2.2.2 网页编码配置 网页编码配置是针对网页信息编码格式不同的情况,进行网页编码格式的统一才能解决因为编码问题形成的乱码现象。 4.2 数据 处理与抽取模块 数据处理与抽取模块包括数据预处理模块和数据抽取模块。该模块主要针对采集获取到的多源数据信息进行预处理和业务数据信息的抽取和结构化。下面进行两大模块的详尽介绍。 4.2.1 数据 预处理 数据预处理模块主要针对采集获取到的多源数据信息进行预处理,包括数据格式的手动清洗、数据手动排重、数据手动分类等。 4.2.1.1 格式 清洗 主要实现对采集获取的目标网页内容进行初步筛选和整理,如乱码处理、HTML 标签处理等,然后将处理后的网页信息存入原创数据库,方便后期处理。
4.2.1.2 自动 排重 该模块主要实现对采集的海量数据进行冗余处理,包括在线手动排重、离线手动排重等多种策略。 4.2.1.3 自动 分类 主要实现对采集内容的分类,包括针对不同采集对象获取到的数据内容的初步分类,以及依照业务需求的对不同的数据类型进行自动分类,如表格、文本、图像类型等,使信息处理更具目的性。 4.2.2 数据 抽取 数据抽取模块主要针对预处理以后的数据信息进行低格抽取,包括网页正文抽取、表格处理、命名实体辨识、关联关系抽取以及特定内容抽取等。 4.2.2.1 网页正文抽取 主要实现对经过预处理(如字符编码问题、网页规范化问题、噪音信息过滤等)之后的目标网页进行模块化和特定正文的抽取,再对抽取的正文进行处理以达到业务数据库的需求,便于现有业务系统的直接使用以及数据挖掘业务。 4.2.2.2 表格处理 该模块主要实现对业务所需网页信息中的表格进行低格抽取,通过对目标表格内容进行定位、表格结构的辨识,实现对表格内容的整合和抽取。 4.2.2.3 命名实体辨识 主要实现借助自然语言处理技术(如基于规则和辞典的方式、基于统计的技巧、二者混和的方式等)对命名实体进行辨识,包括 3 大类(实体类、时间类和数字类)和 7 小类(人名、地名、机构名、时间、日期、货币和比率)的命名实体。
4.2.2.4 关系抽取 主要实现以模式构造、匹配、词典驱动、机器学习等多种算法模式进行关系抽取,包括同义关系、上下位关系等 4.2.2.5 特定内容 抽取 根据特定业务需求内容,实现基于用户手动配置抽取规则模式进行相应数据内容的抽取。 4.3 系统 监测与管理模块 系统检测与管理模块主要系统检测模块和系统管理模块。该模块主要实现对多源数据采集过程中的数据采集器进行监控和异常汇报,以及系统用户和用户权限管理的功能。 4.3.1 系统 监测模块 4.3.1.1 数据采集监控 该模块主要实现对多源数据采集器的监控,对采集数据量的半实时检测以及对采集目标对象数据更新和变化的侦测,方便及时对采集对象进行数据更新和处理。 4.3.1.2 异常监控 该模块主要实现对多源数据采集过程中数据采集器采集异常和线程异常的检测,及时发觉异常并通知用户做出应对策略,保证数据采集的正确性和完整性。 4.3.2 系统 管理模块 4.3.2.1 用户管理 该模块主要实现用户对系统的管理即用户可对抽取系统中的目标数据进行参数化配置,网页 URL 配置等。 4.3.2.2 权限管理 该模块主要实现对用户权限的设置,设置只有满足条件的管理员就能够登入进行管理。
5. 系统 功能性需求 5.1 系统所有模块 系统名称 模块 模块简介 多源数据采集与抽取系统 多源数据采集模块 主要实现多源数据进行采集器的设计以及采集配置 数据处理与抽取模块 主要实现采集获取到的多源数据信息进行预处理和业务数据信息的抽取和结构化 系统检测与管理模块 主要实现对多源数据采集过程中的数据采集器进行监控和异常汇报,以及系统用户和用户权限管理的功能。 5.2 多源数据 采集模块 模块名称 子模块 功能点 描述 多源数据采集模块 多线程采集器模块 行业类网站信息采集器 政府公告类网站信息采集器 新闻网页类信息采集器 以微博为主的社交类网站信息采集器 数据信息更新采集 采集配置模块 采集 URL 配置 采集关键词配置 网页翻页配置 网页编码配置 采集深度配置 5.3 数据处理 抽取模块 模块名称 子模块 功能点 描述 数据处理抽取模块 数据预处理 格式清洗 手动排重 自动分类 数据抽取 网页正文抽取 表格处理 命名实体辨识 关系抽取 特定内容抽取 5.4 系统检测 与 管理 模块 模块名称 子模块 功能点 描述 系统检测与管理模块 系统检测模块 数据采集监控 异常监控 系统管理模块 用户管理 权限管理录 附录 A :需求确认 需求承诺 需求文档 上海美华系统*敏*感*词*多源数据采集与抽取系统需求尺寸说明书,标识符, 0.2 ,王志宏,唐文武,徐永斌, 2015-01-22 顾客确认 签字,日期 项目总监确认 … 签字,日期