采集内容插入词库(本发明分词词库更新系统的方法及方法)

优采云 发布时间: 2022-02-07 06:28

  采集内容插入词库(本发明分词词库更新系统的方法及方法)

  本发明提供一种分词词典更新系统,包括:日志采集模块、日志分析模块、分词评估模块、分词校正过滤模块,其中分词校正过滤模块包括构造子模块、分割子模块和过滤子模块。本发明还提供了相应的方法。实施本发明的分词词库更新系统及方法,基于对分词业务日志的分析,通过对分词业务系统的分词效果评估,提取分词效果较差的分词输入,并根据使用参考概率表Z分词过滤算法对分词效果较差的分词输入进行分词校正和过滤,输出新词组,将新词组更新为分词词库,不断完善分词词库,解决分词词库不能及时适应实际分词应用环境的问题。问题,有效提高分词效果。不断完善分词词库,解决分词词库不能及时适应实际分词应用环境的问题。问题,有效提高分词效果。不断完善分词词库,解决分词词库不能及时适应实际分词应用环境的问题。问题,有效提高分词效果。

  技术领域

  本发明涉及数据处理技术领域,尤其涉及一种分词词库更新方法及系统。

  背景技术

  在搜索系统中,分词质量是影响搜索效果的关键因素。分词过程所依赖的词典是分词技术的重要组成部分。

  目前常用的词库生成方法是使用统计方法:统计输入语料库中相邻共现词的组合(即词组)的频率,计算出互现信息,其中互现信息反映了当接近度高于某个阈值时,可以认为这组字符可能构成一个词。通过上述方法生成词库,然后将词库应用到在线分词业务中。

  但是,上述词频统计方法生成的汉语词库主要存在以下技术问题:一些共现频率较高但不是词的常见词组经常被切分;不适合一些垂直搜索场景,比如商品名搜索、地名搜索、人名搜索等;词库往往是静态的,离线生成,在线使用,无法根据实际使用情况快速更新完善;词库对于新词识别效果较差。

  发明内容

  本发明要解决的技术问题是针对现有中文词典生成词频统计方法的上述缺陷,提供一种分词词库更新方法及系统。

  本发明解决上述问题的技术方案是提供一种分词词库更新系统,包括:

  log采集模块用于采集分词业务系统在运行过程中输出的分词业务日志;

  日志分析模块,用于对日志采集模块采集接收到的分词业务日志进行统计分析,提取相关有效数据;

  分词评估模块,用于根据评估规则对相关有效数据进行评估,得到分词效果较差的分词输入;和

  分词校正与过滤模块用于对分词评价模块得到的分词效果较差的分词输入进行分词校正,过滤输出新词组,将新词组更新为分词词库。

  在上述分词词库更新系统中,分词业务系统包括搜索系统,相关有效数据包括搜索结果的排序次数或浏览次数和/或搜索转化率关键词和/或搜索结果的数量。搜索关键词的首页命中率和/或召回率和/或分词输入的分词结果;评价规则包括搜索关键词的转化率小于第一预设阈值和/或搜索结果个数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值。

  在上述分词词典更新系统中,分词校正与过滤模块包括构建子模块和分词子模块,其中:

  所述构建子模块用于扫描语料数据,计算每个词到下一个词的概率,构建参考概率表;

  分切模块,用于对分词效果较差的分词输入进行全切分,得到基本分词短语。

  在上述分词词库更新系统中,所述分词校正与过滤模块还包括过滤子模块,所述过滤子模块用于根据Z分词过滤算法,使用参考概率表 将得到的基本分词短语过滤得到新词短语,并将新词短语更新到分词词库中。

  在上述分词词库更新系统中,过滤子模块包括:

  扫描单元,用于扫描基本分词短语,得到基本分词短语中的基本分词共享但不收录在基本分词短语中的前向词列表;

  第一判断单元,用于判断前向词列表的长度是否大于第一变量i,第一变量i的初始值为0。

  第一个加法单元用于判断前向词列表的长度大于第一个变量i时,从参考概率表中查询前向词列表中第i个前向词的概率,确定第i个前向词的概率前向词列表中的第一个前向词。当存在前向词的概率或大于等于预设的第一阈值时,将第i个前向词添加到基本分词短语中;

  第一自添加单元,用于判断第i个前向词不存在或小于预设的第一阈值的概率,或者将第i个前向词添加到基本分词短语后,第一A变量i为自行添加;

  第二扫描单元,用于在判断出前向词列表的长度小于或等于第一变量i时,对基本分词短语进行扫描,得到具有前向关系的短语集合,其中具有正向关系表示为{A,B},A为第一个词元素,B为第二个词元素;

  第二判断单元,用于判断集合的大小是否小于第二变量j,其中,第二变量j的初始值为0。

  第二加法单元在判断集合的大小小于第二变量j时,取出集合中第j个短语中的第一个token A和第二个token B,在参考概率表中查找P(A ) 和 P(AB),并计算 P(B|A);当判断P(B|A)小于预设的第二阈值时,判断分词词典中是否已经存在第二词元B,如果否,则将第二记号B添加到基本分词短语中。

  第二自添加单元用于在判断P(B|A)大于或等于预设的第二阈值时,或者在判断分词词典中已经存在第二词典B时,添加第二词素B。基本分词词组加B后,自己加第二个变量j;

  第三添加单元,用于在判断集合的大小大于或等于第二变量j时,将基本分词组重新排序后的新词组添加到分词词库中。

  本发明还提供了一种分词词典的更新方法,该方法包括以下步骤:

  S1、采集分词业务系统在运行过程中输出的分词业务日志;

  S2、对采集收到的分词业务日志进行统计分析,提取相关有效数据;

  S3、根据评价规则对相关有效数据进行评价,得到分词效果较差的分词输入;

  S4、对得到的分词效果较差的分词输入进行分词校正和过滤,输出新词组,并将新词组更新到分词词库中。

  上述分词词库更新方法中,分词业务系统包括搜索系统,相关有效数据包括搜索结果的排序次数或浏览次数和/或搜索转化率关键词和/或搜索结果的次数首页命中率和/或搜索的召回率关键词和/或分词输入的分词结果;评价规则包括搜索关键词的转化率小于第一预设阈值和/或搜索结果个数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值。

  上述的分词词典更新方法中,步骤S4包括:

  S41、扫描语料数据,计算每个词到下一个词的概率,构建参考概率表;

  S42、对分词效果较差的分词输入进行全切分,得到一个基本的分词短语。

  上述的分词词典更新方法中,步骤S4还包括:

  S43、根据使用参考概率表的Z分词过滤算法,对分词模块全分词后得到的基本分词短语进行过滤,得到新词词组,并对新词词组进行更新到分词词库。

  上述的分词词典更新方法中,步骤S43包括:

  S431、扫描基本分词短语,得到基本分词短语中基本分词共享但未收录在基本分词短语中的前向词列表;

  S432、判断前向词列表的长度是否大于第一变量i,其中,第一变量i的初始值为0,如果是,则执行步骤S433,如果不是,则执行步骤执行S435;

  S433、判断前向词列表的长度大于第一变量i时,从参考概率表中查询前向词列表中第i个前向词的概率,确定第i个前向词的概率前向词列表中的前向词。当前向词的概率存在或大于等于预设的第一阈值时,将第i个前向词添加到基本分词短语中;

  S434、 在判断第i个前向词的概率不存在或小于预设的第一阈值时,或者将第i个前向词添加到基本分词短语后,第一个变量i为自相加,自相加第一变量i后,重复步骤S432~S434;

  S435、判断前向词列表的长度小于等于第一变量i时,扫描基本分词短语,得到一组具有前向关系的短语,其中具有前向关系的短语关系表示的是{A,B},A是第一个词元素,B是第二个词元素;

  S436、判断集合的大小是否小于第二变量j,其中第二变量j的初始值为0,如果是,执行步骤S437,如果不是,执行步骤S439;

  S437、 当判断集合的大小小于第二个变量j时,取出集合中第j个短语中的第一个token A和第二个token B,查询P(A)和P( AB),并计算 P(B|A);当判断P(B|A)小于预设的第二阈值时,判断分词词典中是否已经存在第二词元B,如果不存在,则将第二记号B添加到基本分词短语中。

  S438、当判断P(B|A)大于等于预设的第二阈值时,或者判断分词词典中已经存在第二词元B,或者第二添加词元B 达到基本分词短语后,自添加第二变量j,自添加第二变量j后,重复步骤S436~S438。

  S439、 当判断集合的大小大于等于第二变量j时,将基本分词重新排序得到的新词组添加到分词词库中。

  分词的应用环境问题可以有效提高分词效果。同时,分词业务系统可以定期加载更新的分词词库,然后继续进行分词服务,可以快速更新。

  图纸说明

  如图。附图说明图1为本发明分词词库更新系统实施例的结构*敏*感*词*。

  如图。图2为本发明分词词库更新方法的一个实施例的流程图。

  如图。图3为本发明分词词库更新方法实施例的具体流程图。

  详细说明

  为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明。

  本发明的分词词库更新系统及方法是基于对分词业务日志的分析,通过对分词业务系统的分词效果评估,提取分词效果较差的分词输入,使用参考概率表,根据Z分词过滤算法确定分词效果。对不好的分词输入进行修正过滤输出新词短语,并将新词短语更新到分词词库,不断改进分词词库,解决了分词词库不能及时的问题并适应实际的分词应用环境。

  如图所示。参见图1,为本发明分词词库更新系统的一个实施例的结构*敏*感*词*。系统100包括日志采集模块110、日志分析模块120、分词评估模块130和分词校正过滤模块140,其中:

  日志采集模块110的输入端与分词业务系统相连,用于采集分词业务系统在运行过程中输出的分词业务日志,其中,分词业务系统是指应用分词功能的系统,包括搜索系统,此时搜索系统在运行过程中输出的分词业务日志就是搜索服务日志,包括用户的搜索输入,搜索系统返回的结果,以及用户对搜索结果的浏览和订购行为。

  日志分析模块120的输入端与log采集模块110的输出端相连,用于对log采集模块< @采集,并提取相关的有效数据。以收录搜索系统的分词业务系统为例,有效数据包括搜索结果的排序或浏览次数和/或搜索转化率关键词和/或首页点击率搜索结果和/或搜索关键词的召回率和/或分词输入的分词结果,其中搜索结果的订单数或视图数表示订单数或次数用户浏览特定搜索词的详细信息页面的次数;关键词的搜索转化率是指用户浏览详情页的次数或订单数与某个搜索词的搜索次数的比值;搜索结果首页命中率是指对于某个搜索词,用户在搜索结果的首页获得了想要的结果。次数与搜索次数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。率是指用户浏览详情页的次数或下单次数与某个搜索词的搜索次数的比值;搜索结果首页命中率是指对于某个搜索词,用户在搜索结果的首页获得了想要的结果。次数与搜索次数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。率是指用户浏览详情页的次数或下单次数与某个搜索词的搜索次数的比值;搜索结果首页命中率是指对于某个搜索词,用户在搜索结果的首页获得了想要的结果。次数与搜索次数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。搜索结果首页命中率是指对于某个搜索词,用户在搜索结果的首页获得了想要的结果。次数与搜索次数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。搜索结果首页命中率是指对于某个搜索词,用户在搜索结果的首页获得了想要的结果。次数与搜索次数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。; 分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。; 分词输入的分词结果表示用户输入的搜索结果关键词@关键词最终分词结果中的monads个数。

  分词评价模块130的输入端与日志分析模块120的输出端相连,用于根据评价规则对相关有效数据进行评价,得到分词效果较差的分词输入,其中根据相关有效数据预设评价规则。评价规则的数量由包括搜索系统在内的分词业务系统的类型决定。评价规则包括搜索关键词的转化率小于第一预设阈值和/或搜索结果的数量小于第二预设阈值。和/或使用量小于预设阈值和/或分词输入的分词结果大于第三预设阈值,其中,根据搜索关键词的转化率小于第一预设阈值和/或搜索结果的数量小于第二预设阈值评价得到的分词输入为搜索关键词,用法包括商品详情页的浏览量和订单数。是热门搜索记录,如搜索到的产品名称、标签、详细描述等。

  分词校正和过滤模块140的输入端与分词评估模块130的输出端相连,用于对分词效果较差的分词输入进行分词校正和过滤输出新词组。由分词评估模块得到,并将新词 词组更新到分词词库中。至此,分词词库已经更新,分词词库不断完善。这时分词业务系统可以周期性的加载更新的分词词库,然后继续进行分词服务,可以快速更新。

  具体地,在本实施例中,分词校正过滤模块140包括构造子模块142、、分子分词模块141和过滤子模块143,分词子模块的输入端作为分词校正。滤波模块140,滤波子模块143的输入端和输出端与第一输入端相连,构造子模块142的输出端与滤波子模块的第二输入端相连,其中,构建子模块142用于扫描语料数据,并计算每个词到下一个词的概率,构建参考概率表。需要说明的是,语料数据可以是特定搜索环境下的语料数据,如名称、详细描述、商品搜索系统中所有商品的标签、商品名称等,也可以是常见的日常语料数据,比如新闻、小说、传记等。比如如果有语料,包括语料AA , AB, AC, ABC 和 ABCD,那么在A的条件下,下一个单词A的个数是1,语料库中以A开头的单词个数是5,所以,AA的概率是1/ 5,即0.2,对应AC的概率为0.2;AB(P(B|A)) 的概率为 0.6;ABC(P(C|AB))的概率为1;ABCD(P(D|ABC))的概率为1,所以AA的概率,AC的概率,AB的概率(P(B|A)),ABC的概率(P(C|AB) ) 和概率 ABCD(P(D|ABC)) 构成参考概率表。商品搜索系统中所有商品的商品 提供者名称等,也可以是常见的日常语料数据,如新闻、小说、传记等。比如如果有语料,包括语料AA、AB , AC, ABC 和 ABCD, 那么在 A 的条件下, 下一个单词 A 的个数是 1, 语料库中以 A 开头的单词个数是 5, 所以 , AA 的概率是 1/5,即0.2,对应AC的概率为0.2;AB(P(B|A)) 的概率为 0.6;ABC(P(C|AB))的概率为1;ABCD(P(D|ABC))的概率为1,所以AA的概率,AC的概率,AB的概率(P(B|A)),ABC的概率(P(C|AB) ) 和概率 ABCD(P(D|ABC)) 构成参考概率表。商品搜索系统中所有商品的商品 提供者名称等,也可以是常见的日常语料数据,如新闻、小说、传记等。比如如果有语料,包括语料AA、AB , AC, ABC 和 ABCD, 那么在 A 的条件下, 下一个单词 A 的个数是 1, 语料库中以 A 开头的单词个数是 5, 所以 , AA 的概率是 1/5,即0.2,对应AC的概率为0.2;AB(P(B|A)) 的概率为 0.6;ABC(P(C|AB))的概率为1;ABCD(P(D|ABC))的概率为1,所以AA的概率,AC的概率,AB的概率(P(B|A)),ABC的概率(P(C|AB) ) 和概率 ABCD(P(D|ABC)) 构成参考概率表。

  分段模块141用于对分词效果较差的分词输入进行全切分,得到基本分词短语。如果分词效果较差的分词输入是“智能分词”,则全切后得到的基本分词短语是基于分词“intelligence”、“neng”、“fen”组成的基本分词短语, “词”、“智能”、“能分”、“分词”、“智能点”、“能量分词”、“智能分词”。

  过滤子模块143,用于根据Z分词过滤算法,利用参考概率表对分段模块141全切后得到的基本分词词组进行过滤,得到新词词组,并将新词词组更新为分词词库,具体地,过滤子模块143包括:

  扫描单元,用于扫描基本分词短语,得到基本分词短语中的基本分词共享但不收录在基本分词短语中的前向词列表;

  第一判断单元,用于判断前向词列表的长度是否大于第一变量i,第一变量i的初始值为0。

  第一个加法单元用于在判断前向词列表的长度大于第一变量i时,从参考概率表中查询前向词列表中第i个前向词的概率,确定第i个前向词的概率前向词列表中的第一个前向词。当前向词存在或大于或等于预设的第一阈值a时,将第i个前向词添加到基本分词短语中;第一自加单元用于判断第i个前向词。当该词的概率不存在或小于预设的第一阈值a时,或在基本分词短语中加入第i个前向词后,自行加入第一变量i。第一自加单元的输出端与第一判断单元的输入端相连。第一变量i自加后,第一变量i的值为1。输出到第一判断单元时,第一判断单元重启。判断,如此循环,将前向词列表中可从参考概率表中查询到的概率不存在或小于第一阈值a的前向词对应添加到基本分词短语中,即扫描得到判断后的前向关系短语集合。

  第二扫描单元,用于在判断出前向词列表的长度小于或等于第一变量i时,对基本分词短语进行扫描,得到具有前向关系的短语集合,其中具有正向关系表示为{A,B},A为第一个词元素,B为第二个词元素;

  第二判断单元,用于判断集合的大小是否小于第二变量j,其中第二变量j的初始值为0。

  第二加法单元在判断集合的大小小于第二变量j时,取出集合中第j个短语中的第一个token A和第二个token B,在参考概率表中查找P(A ) 和 P(AB),并计算 P(B|A);当判断P(B|A)小于预设的第二阈值b时,判断分词词典中是否已经存在第二词元B,如果不存在,则将第二记号B添加到基本分词短语中。第二自添加单元用于在判断P(B|A)大于等于预设的第二阈值b时,或者判断分词词典中已经存在第二词元B时,或者添加第二个词在基本分词短语中加入元素B后,自己加上第二个变量j。第二自加单元的输出端与第二判断单元的输入端相连。第二个变量j自加后,第二个变量j的值变为1,输出到第二个判断单元时,第二个判断单元重新判断,重复循环,添加集合中的第二个词元素可以从参考概率表中查询到对应的概率小于第二阈值b且在分词词库中不存在的对基本分词短语的判断。然后,将基本分词短语排序重载后得到的新词短语加入到分词词库中,从而实现对分词效果较差的分词输入的过滤,将得到的新词组加入到分词词库中,实现分词。词库更新。

  第三添加单元,用于在判断集合的大小大于或等于第二变量j时,将基本分词组重新排序后的新词组添加到分词词库中。

  在本实施例中,第一阈值a和第二阈值b是可配置的,并根据实际情况进行调整优化。

  如图所示。参见图2,为本发明分词词库更新方法的一个实施例的流程图。该方法从步骤S1开始。

  步骤S1,采集分词业务系统在运行过程中输出的分词业务日志;本步骤中,分词业务系统是指应用分词功能的系统,包括搜索系统。此时,搜索系统运行过程中的分词业务日志输出为搜索服务日志,包括用户的搜索输入、搜索系统返回的结果、用户对搜索结果的浏览和排序行为。

  在步骤S2中,对日志采集模块采集接收到的分词业务日志进行统计分析,提取相关有效数据。本步骤中,以收录搜索系统的分词业务系统为例,有效数据包括搜索结果的排序或浏览次数和/或搜索的转化率关键词和/或搜索结果首页的命中率和/或或搜索关键词的召回率和/或分词输入的分词结果,其中排序次数或浏览次数搜索结果的次数表示用户对某个搜索词的详情页的订购或浏览次数;搜索关键词@的转化率> 指对于某个搜索词,用户浏览详情页的次数或订单数与搜索数之比;搜索结果首页命中率是指对于某个搜索词,用户获取搜索结果首页的次数。所需结果数与搜索数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示Search 关键词最终分词结果中供用户输入的词数。搜索结果首页命中率是指对于某个搜索词,用户获取搜索结果首页的次数。所需结果数与搜索数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示Search 关键词最终分词结果中供用户输入的词数。搜索结果首页命中率是指对于某个搜索词,用户获取搜索结果首页的次数。所需结果数与搜索数之比;搜索召回率关键词表示搜索系统对某次搜索关键词返回的结果个数;分词输入的分词结果表示Search 关键词最终分词结果中供用户输入的词数。@关键词; 分词输入的分词结果表示Search 关键词最终分词结果中供用户输入的词数。@关键词; 分词输入的分词结果表示Search 关键词最终分词结果中供用户输入的词数。

  在步骤S3中,根据评估规则对相关有效数据进行评估,得到分词效果较差的分词输入,其中预先设置了评估规则,根据相关有效数据的类型确定评估规则的数量。 . 分词业务系统包括: 以搜索系统为例,评价规则包括搜索关键词的转化率小于第一预设阈值和/或搜索结果数小于第二预设阈值和/或使用量小于预设阈值和/或分词输入 分词结果大于第三预设阈值,其中,根据搜索的转化率关键词 小于第一预设阈值和/或搜索结果数小于第二预设阈值 评估得到的有效数据为搜索关键词 @关键词,使用量包括浏览量和产品详细信息页面上的订单。根据使用量小于预设阈值的评价规则评价得到的有效数据为热搜记录,例如搜索到的产品名称、标签、详细描述等。

  在步骤S4中,对上述步骤S3得到的分词效果较差的分词输入进行分词校正和过滤,并输出新词组,并将新词组更新到分词词库中。至此,分词词库已经更新,分词词库不断完善。这时分词业务系统可以周期性的加载更新的分词词库,然后继续进行分词服务,可以快速更新。需要说明的是,本发明中的分词输入是指分词业务系统中所有需要分词的数据,例如在创建搜索索引过程中需要分词的数据,

  具体来说,参照图。如图3所示,在本实施例中,上述步骤S4包括:

  在步骤S41,扫描语料数据,计算每个词到下一个词的概率,构建参考概率表。需要说明的是,语料数据可以是特定搜索环境下的语料数据,例如商品搜索系统中的所有数据。产品的名称、详细描述、标签、产品提供者名称等也可以是常见的日常语料库数据,比如新闻、小说、传记等。比如如果有语料库,包括语料库AA, AB、AC、ABC、ABCD,那么在A的条件下,下一个单词A的个数是1,语料库中以A开头的单词个数是5,所以,AA的概率是1/5 ,即0.2,对应AC的概率为0.2;AB(P(B|A)) 的概率为 0.6;ABC(P(C|AB))的概率为1;ABCD(P(D|ABC))的概率为1,所以AA的概率,AC的概率,AB的概率(P(B|A)),ABC的概率(P(C|AB) ) 和概率 ABCD(P(D|ABC)) 构成参考概率表。

  在步骤S42中,对分词效果较差的分词输入进行全切得到基本分词短语,若分词效果较差的分词输入为“智能分词”,则全切后得到的基本分词短语分词是由基本分词基本分词由“智能”、“能”、“分”、“词”、“智能”、“能分”、“分词”、“智能点”组成的基本分词短语、“能量分词”和“智能分词”。

  在步骤S43中,根据Z分词过滤算法利用参考概率表对全切后得到的基本分词短语进行过滤得到新词短语,并将新词短语更新到分词词库中。

  具体来说,参照图。如图3所示,在本实施例中,上述步骤S43包括:

  在步骤S431中,扫描基本分词短语,得到基本分词短语中基本分词共享但不收录在基本分词短语中的前向词列表;在步骤S432中,判断前向词表的长度是否大于第一变量i,其中第一变量i的初始值为0,若是,执行步骤S433,若否,执行步骤S435。在步骤S433中,从参考概率表中查询前向词列表中第i个前向词的概率,当判断出第i个前向词的概率存在或大于或等于预设的第一阈值a时,将第 i 个前向词添加到基本分词短语中。在步骤S434中,当判断第i个前向词的概率不存在或小于预设的第一阈值a时,或者第i个前向词添加到基本分词短语后,第一个变量i为self-添加后,自添加第一变量i后,第一变量i的值变为1,重复上述步骤S432至S434。重复此循环,将前向词列表中可从参考概率表中查询到的前向词对应概率不存在或小于第一阈值a的概率添加到基本分词短语中,即扫描得到判断后的前向词。关系短语的集合。自加第一变量i,自加第一变量i后,第一变量i的值变为1,重复上述步骤S432~S434。重复此循环,将前向词列表中可从参考概率表中查询到的前向词对应概率不存在或小于第一阈值a的概率添加到基本分词短语中,即扫描得到判断后的前向词。关系短语的集合。自加第一变量i,自加第一变量i后,第一变量i的值变为1,重复上述步骤S432~S434。重复此循环,将前向词列表中可从参考概率表中查询到的前向词对应概率不存在或小于第一阈值a的概率添加到基本分词短语中,即扫描得到判断后的前向词。关系短语的集合。将与该概率不存在或小于第一阈值a的概率相对应的从参考概率表中可查询到的前向词列表中的前向词添加到基本分词短语中,扫描得到判断后的转发词。关系短语的集合。将与该概率不存在或小于第一阈值a的概率相对应的从参考概率表中可查询到的前向词列表中的前向词添加到基本分词短语中,扫描得到判断后的转发词。关系短语的集合。

  在步骤S435中,扫描基本分词短语,得到一组正向关系短语,其中正向关系短语表示为{A,B},A为第一个词元,B为第二个词元.

  在步骤S436中,判断集合的大小是否小于第二变量j,其中第二变量j的初始值为0,如果是,则进行步骤S437,否则,进行步骤S439。在步骤S437中,取出集合中第j个短语中的第一个词元A和第二个词元B,从参考概率表中查找P(A)和P(AB),得到P(B|A ); 当判断P(B|A)小于预设的第二阈值b时,判断分词词典中是否已经存在第二词元B,如果不存在,则将第二词元B添加到基本分词短语中。在步骤S438中,当判断出P(B|A)大于或等于预设的第二阈值b时,或者当判断出分词词库中已经存在第二词元B时,或者第二个词元素B加入基本分词短语后,再加入第二个变量j,在第二个变量加入后重复上述步骤S436至S438。重复此循环,将集合中可从参考概率表中查询到的第二个词元素对应一个小于第二阈值b且在分词词库中不存在的概率添加到基本分词短语中,即将基本分词短语排序重载后得到的新词短语加入到分词词库中,从而实现对分词效果较差的分词输入的过滤,将得到的新词短语加入到词中分割词库。更新。在步骤S439中,

  以上所述仅为本发明的较佳实施例而已,本发明的保护范围并不以此为限。替换物应收录在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。最后解释一下本发明中的一些符号,P(A)代表A出现的概率;P(A|B)表示在B发生的条件下A发生的概率;P(AB) 表示 AB 同时出现的概率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线