智能采集平台(智能采集平台的职责包括四个方面:采集数据、标注)

优采云 发布时间: 2022-02-04 09:09

  智能采集平台(智能采集平台的职责包括四个方面:采集数据、标注)

  智能采集平台的职责包括四个方面:采集数据、标注数据、维护数据、数据分析。首先,采集是数据分析的起点,采集的数据越多,分析的结果就越精准,如果仅仅在几个数据源上反复采集数据,将占用大量的采集时间和成本。因此,数据的抓取是数据分析的第一步。其次,标注是数据分析的第二步,统计标注并依据统计结果对数据源进行检索。

  对采集的数据进行定量的统计分析,找出关联性强的数据,从而有针对性地进行业务分析,最终提高业务效率。最后,维护是数据分析的最后一步,为数据分析处理留下时间和空间。数据的维护可包括数据挖掘结果的标注及结果的存储。例如利用数据采集平台的标注平台自动标注采集到的数据点,另外有一些特殊标注,例如按照时间、生日、信件号、手机号、*敏*感*词*号等进行的标注,采集平台会提供业务专用标注。

  采集结果标注标注需要给同事提供统一平台。比如日期及时间类型,线路及相关标识。规范的标注采集流程采集点采集要大一点,随着小批量的数据量越来越大,采集点之间的关联越来越紧密,结构化标注越来越成为必须。各种不同的标注方式:高频标注、分类标注、中间标注等。对统计标注进行处理需要熟悉业务,提高采集到数据的准确性。

  针对特殊标注进行标注时,需要细致化处理,标注和统计结果要匹配合理。采集点的选择是根据业务需求来选择的,应根据数据集的规模来选择,还要考虑数据集中的标注主题种类及覆盖率。数据集中包含的标记主题对应的数据有可能是独立的,又可能是共同的,为简化检索,可以选择独立的标记或者共同的标记来进行检索。比如*敏*感*词*共有8593条,则可以根据学生的id数来进行标注数据,或者根据籍贯进行标注数据,在标注的时候就需要参考学生的信息情况。

  需要提醒大家注意的是,同一个标记集中的标记对应同一标记主题,对于不同的主题需要在数据库表中设定各自的标记主题或者赋予合理的标记主题。例如,通过标记学生的籍贯的方式,能够很好地匹配学生所属的省份、市区、县等信息。在进行采集点的标注时,可根据大量数据中存在的规律性信息,可以通过相似检索的方式对采集到的数据进行聚类分析。

  数据分析对采集到的数据进行数据分析,包括特征的提取及标注的分析。数据分析通常应考虑主观与客观结合,经过特征归纳,把具有共性的关键主题抽取出来。标注分析需要考虑四个因素:数据集中标注主题的统计情况、采集点的统计情况、特征词的抽取情况、标注内容的分组情况。在做特征抽取时,需要通过关键词抽取的方式,将特征转换为内嵌在数据集中的特征表格。用于分析。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线