资讯内容采集系统(新冠肺炎疫情信息中的身影处理(NLP))
优采云 发布时间: 2022-03-11 02:13资讯内容采集系统(新冠肺炎疫情信息中的身影处理(NLP))
刘焕勇
新型冠状病毒肺炎疫情已过去一个月,微博、微信、公众号、今日头条和主流新闻客户端发布的新闻信息、数据披露、政策行动等信息为我们提供方便。定向知识提供了多种有效途径。
自然语言处理技术已经应用到疫情信息的挖掘和处理上,但大多集中在疫情信息的采集、整理和展示上,属于所见即所得、可以快速“所见即所得”的范畴。推出”。疫情作为社会事件,具有极高的搜索价值和分析参考价值。疫情事件搜索系统的开发具有很强的紧迫性。
一、新冠肺炎疫情信息中的NLP图
自然语言处理 (NLP) 是针对给定的提取和识别目标处理多源和异构文本信息的重要手段。在当前新型冠状病毒疫情的热点,微博、微信、公众号、今日头条等主流新闻客户端发布和分享了大量的新闻信息、数据披露、政策行动等信息,利用NLP技术对信息进行处理. 服务多元化。
1、每日疫情变化数据结构
各省、市、地方政府卫健委网站(简称卫建委)网站,是疫情变化的数据(每日新增病例、每日新增疑似病例、每日新增病例数)治愈人数)等。提供权威可靠的一手数据源,其中大部分以非结构化网页文本的形式记录。
为了有效地结构化网页中收录的数据指标,形成各种准确的数据项,需要使用 NLP 中的数据指标提取方法来提取位置、指标名称、数量和具体指标。与金额的关系。不同于传统的人工记录录入方式,机器自动提取方式可以实现快速、实时的数据更新和监控。
2、 每日疫情变化数据可视化呈现
视觉展示是NLP的重要组成部分。基于echarts、pyechars、Gephi等可视化插件,可以从多方面进一步挖掘和展示数据的魅力。
使用带有时间轴的图表,可以直观地看到疫情数据的每日变化,从数据的变化中可以主观地看出疫情的走向;
用中国或世界地图来表示地图中各省、市、国家的数据,配上颜色的深浅,可以帮助我们快速定位和关注不同地区、人群的疫情分布在相应的地区也能够根据这个结果做出相应的措施和计划的改变;
使用轨迹图和位置散点图,结合地理GIS数据,可以方便我们进一步了解病区与我们所在区域的距离,还可以有效标注其活动路径和范围,方便我们跟踪和跟踪。增强预防意识。
3、每日疫情谣言筛选
谣言与疫情并存。随着疫情的不断发展,相应的新防疫措施、政策消息等不同类型的信息不断发布。然而,由于信息发布的国有化,铺天盖地的消息接踵而至,让人傻眼了。因此,有效、自动地识别和打击这些信息就显得尤为重要。
从技术上看,谣言难以识别,大多需要强大的专业背景知识库作为支撑,再加上疫情本身的敏感性,对准确性提出了更高的要求。因此,在具体的技术实现上,一方面需要利用谣言数据集对谣言进行有效建模,结合机器判断和人工排序来完成;另一方面,要密切关注权威人士,如钟南山院士,以他人的判断为准,并寻求验证比较的方法进行最终判定。
4、疫情自动问答辅助
基于机器的自动问答是整个“战疫”中非常有意义的工作。疫情相关资料的采集和处理是整个自动问答服务中最关键、最耗时的任务,它决定了问答辅助。效果的可信度和有效性。
通过采集与新型冠状病毒疫情有关的数据、病毒知识、自查防疫措施、地方政策等资料,整理形成结构化的知识库和问答形式,进而形成问答形式。基于此的回答界面。它可以有效且轻松地应用于各种场景。
细分方面,可以看到目前的“基于位置定位信息的指标数据问答”、“病毒知识宣传宣传”、“病毒感染发热症状自查”、“就医过程咨询”医疗部门”、“有效的病毒防治措施及就诊方式”、“病毒感染者出行次数查询”、“疫情心理咨询”等不同类型的问题-and-answer 场景。但不可否认的是,受限于当前问答技术的局限性以及相关数据整理的难度,体验和性能仍有提升的空间。
二、 COVID-19 对事件搜索系统的需求
上述针对疫情实现的 NLP 功能,仍然集中在数据的排序和提取以及针对疫情本身的一些查询服务上。但作为社会事件,疫情本身具有极高的搜索价值和分析参考价值。目前,与疫情相关的新闻信息的挖掘、分析和搜索还比较初级,但也显示出对此类搜索系统的迫切需求。
1、急需一个疫情相关事件库,应对复工需求
一个事件从开始到发展,会经历一个漫长的过程。在这个过程中,会衍生出许多不同的事件。这些事件的发展路径具有很高的历史参考价值和经验意义。百度风云榜、新浪微博热搜等主流媒体以每日或每周“热点话题”的形式展示了整个时间轴上的事件变化。=
以微博热搜为例,整个新冠疫情经历了“调查华南海鲜市场”、“武汉封城消息”、“调查病毒源头”、“研发抗病毒疫苗” ,《火神山与雷神山》。建立两所医院”,“博士。李文亮采访及随后逝世》、《全国各省*敏*感*词*支援》、《疫情拐点到来》、《世界卫生组织对中国疫情的关注与赞许》、《中国疫情好转,新增病例数连续下降”、“山东监狱感染人数骤增”、“武汉人来北京”、“
一方面,每个微博热点话题都可以作为一个特定的事件进行挖掘,包括传播趋势和演化路径,可以有效总结和总结整个事件的发展模式,并实现利用这种事件模式来挖掘为后期提供信息。可提前预防类似事件的发生,实施趋势预测有助于有效制止和应对某些不良反应和趋势。为进一步分析社会群体的特征、新时代的民族意识、社会各界对某些事物的认识和识别能力等提供了丰富的证据,可以支持相关舆论的监测和引导。 .
2、响应用户检索的事件演化识别和跟踪要求
事实上,人们对信息的处理能力是有限的,人们往往只关注某一事件的发展很短的一段时间。正所谓“长江后浪推前浪”,过去某个时间人们关注的某个热点,随之而来的是各行各业的遗忘,旧貌换新颜。新热点就是一个生动的例证。对每个热点进行相应的细粒度挖掘和分析,将形成针对特定事件的整个发展路径和跟踪记录,可以充分满足用户“随时拾取,随处查询”的实际需求。
事件演化跟踪是实现这一需求的重要工作。从一个事件的发生到结束,会有一个发展过程。随着时间的推移,事件的重点、动作和关联实体都会发生变化,比如常见的“大反转”和“大起大落”等情节。在技术实现需求方面,事件演化跟踪从不同的应用角度提出了不同的技术需求。
一般来说,事件演化与追踪主要包括“抽象事件脚本脚本规范”、“事件时间线生成”、“事件故事情节”构建三个重要任务。
1)事件脚本脚本规范,即抽象叙事脚本的生成。一个典型的剧本由多个场景组成,其中多个参与者和抽象动作是按顺序排列的,比如一个典型的餐厅剧本,包括“进入餐厅”、“在选定的位置坐下”、“点餐”、“用餐” 、“结账”、“结账”等动作。抽象事件图是一个接近脚本脚本的作品。图中的节点对应脚本中的一个抽象动作,节点之间的关系对应脚本演化关系。模板工作。事件脚本的协议可以为用户提供某个事件类的开发模板,并进一步提供推荐和关联服务。下图展示了一个以“因果”逻辑为核心的进化图。
2)时间线时间线生成需要时间作为指标,将整个事件的发展按时间顺序组织起来,最终形成具有实际事件演化特征的时间序列线。下图列出了“*敏*感*词*公主号”的游轮时间线形式,从中我们可以清楚地看到游轮上的疫情随时间的变化。在技术实现上,生成的核心包括两点:一是关键时间点的选择,另一个是关键时间点的代表性事件的确定,其中,代表性事件往往不同于以往的事件,具有明显的转向、渐进等方向变化。
3)故事情节的构建需要从事件本身的内容出发,按时间顺序组织形成的进化线。故事情节与时间线不同。对于一个事件,只有一个时间线,但可能有多个故事情节。,基于构建的故事线,可以更清晰地追溯事件的发展。下图现实的“李文亮事件”中,有多条以“妻子出事”、“真相”等为主题的故事线,描述了“李文亮事件”的全貌。事件”从不同的角度给用户。
三、 构建事件搜索系统的关键挑战
由于此类技术开发周期长、技术成熟度低的限制,事件搜索系统的构建并不容易,各种技术细节都需要精心打磨。下面简单介绍几个关键点,例如实时采集和基于全网的信息处理、新闻信息的去重过滤和统计、事件相关信息组织的知识图谱整合.
1、实时采集和基于全网信息的处理
在线实时新闻信息(包括社交媒体、自媒体、平面媒体、网络媒体)是目前人们获取信息的主要方式。随着互联网技术的发展和普及,新闻的传播和应用场景进一步扩大。在生成方面,新闻信息围绕一个或几个主题中心点(我们称之为“事件”)展开。例如,“2011 日本地震”在发生半小时后就有 12,640 篇文章。新闻报道和微博发布超过300万条。因此,利用这些新闻报道和微博短信来保证事件搜索引擎的运行尤为重要,通过采集和确定相关网站来源列表,使用分布式采集
2、新闻信息的去重、过滤和统计
由于网络上的新闻大量转载,同一条信息出来后,重大新闻网站都会转载。新闻去重的目的是对这些新闻信息进行有效的去重和统计,为热点新闻的计算和分析提供数据支持。在实现方法上,方法很多。常用的形式有基于标题的去重和基于全文的去重。去重算法可以分为基于字符的相似度和基于主题的相似度。下图是典型的网页去重流程图。
3、 面向新闻的事件形式定义和识别
事件,这个词是一个抽象的概念。不同的人从不同的角度对这个词会有不同的理解。很难做出统一的规则,具体和形式化的展示形式会有巨大的差异。在事件搜索引擎中,“事件”可以看作是某篇文章或某条信息的主题凝聚和代表,即与它相关的一些背景信息,如what、when、where、who、why、how( 5W1H) 表示。
事件的形式化表示是事件搜索系统中最基本也是不可避免的因素(尽管大多数相关的新闻挖掘系统事先都在故意淡化它们)。我们认为,一个好的事件的正式表示应该尽可能短,语义尽可能丰富,以解释某些事情。目前主流的事件形式化表示包括事件关键词、事件短语、事件主题句、事件摘要等形式。
event关键词,指以单词为单位表达事件的一种方式,常表示为一系列离散的event关键词集合,从信息饱和度来看,event关键词是最差的,离散化的事件表示不连贯,呈现不友好。在技术实现上,event关键词的方法比较简单,但是效果比较难控制。可以使用LDA模型对大量信息文本进行建模得到对应的主题词,或者使用TFIDF等关键词提取算法,辅以词性过滤或者停用词得到对应关键词。
事件短语是比词更高层次的单元,词的数量适中,但它们的语义相对抽象,丢失了很多外部属性信息,而且大多在四个词以上。在实现上,多采用基于语料库的方法,即对整个文章,准确识别出对应的事件短语形式,如主谓短语、名词短语等,并统计随后将方法应用于每个候选者。短语被评分。
事件主题句是原创新闻信息描述中的一种原创表达形式。它可以分为短句(以逗号分隔)或长句。事件主题句比事件短语长。信息也比较丰富,短句可以接受,但长句不友好显示;在实现上,事件主题句的识别是对文章中的所有句子进行评分和排序操作。当需要为事件主题句划定一定的规则时,即评分函数,该函数需要考虑到一个主题句应该收录尽可能多的事件元素,即具有显着的代表性。
事件摘要是一种比信息全文更短的语言单元,可用作较长文本事件介绍的内容源。在具体实现上,抽取式摘要是目前的主要方法。其核心思想是将文本分成句子或段落,结合位置和主题的特点建立评分模型,选择得分较高的句子或段落作为事件摘要。
在具体应用中,我们在形式化事件时应尽可能选择较长的事件短语或较短的事件主题句,以达到用户友好呈现和丰富语义之间的平衡。比如下面是eventregistry网站中事件展示的结果,可以给我们提供参考。
4、新闻信息的主题分析与演化挖掘
同一条新闻往往收录多个主题,经典的LDA主题分析模型是文本主题分析中常用的一种方法(下图说明了PLSA和LDA两种主题模型结构)。主题分析的目的是挖掘给定新闻文本中涵盖的不同主题以及主题分布,用于文章对同一主题进行聚类和分析。新英格兰医学杂志发表了文章Controversy”。事件引发的典型评论分析,通过主题分析,可以挖掘出评论的主题,即批评与争议的点,以及争议点的具体表达。
一般在确定主题分布后,就需要完成事件的正式确定、时间线和故事情节的构建(这是比较难的部分)。最后,以事件之间的时间线和故事线为中间环节,将事件、主题、时间和信息四大基本要素连接在一起,形成以事件为核心的复杂关系网络,满足不同事件的需求。方面。搜索需求。
5、事件相关信息组织的综合知识图谱
知识图谱,将现实生活中的知识以结构化的方式组织起来,并在图中表示为节点和关系。用于更好地协助用户进行搜索,提升用户体验。知识图可以用来标注相关信息。、索引、扩展搜索和组织。
一是基于知识图谱对事件相关信息的标注。使用基于知识图谱的实体链接和实体消歧的方法,对与事件相关的新闻文本进行实体提及识别(如下图,使用百科知识图对输入的流行病文本进行实体链接),如果标识了哪些实体(如人员、机构和位置)可以作为一种标签添加到信息标签系统中。基于这些标签,可以从事件、实体、信息、主题等不同维度形成一个庞大的新闻事件网络。
二是基于知识图谱的事件索引和扩展搜索。通过知识图谱的实体链接和实体消歧的方法,可以得到事件相关信息的标签。一方面,可以基于这个标签进行事件分类和索引。组织等查找相应事件并采集事件相关信息。另一方面,由于识别出的实体在其所在的知识图谱中收录大量的相关信息,例如知识卡片,因此下图上一步链接的实体可以获取并获取该实体的更详细信息。实体。展示有效地增加了事件的相关信息量。
四、 总结
日常疫情变化数据的提取与可视化、疫情相关谣言的识别、自动问答等应用充分展示了自然语言处理技术在疫情信息挖掘与处理中的广泛应用,但仍侧重于疫情本身的数据排序、提取和一些查询服务,都是可以快速“上线”的一类应用。疫情作为社会事件,具有极高的搜索价值和分析参考价值。疫情相关新闻和信息的挖掘、分析和搜索对事件搜索系统提出了迫切的需求,比如迫切需要疫情相关的事件数据库来响应复工的需要,
建立一个基于实时采集和全网信息处理、新闻信息去重过滤和统计、新闻信息主题分析和挖掘、形式化定义和识别的事件搜索系统并不容易。面向新闻信息事件的知识图谱化,以及集成事件相关信息索引等技术问题的知识图谱和基础工作需要逐步开展,这也是Data Horizon后期发展的一个重要方向。