导购网站比价网站、比价比量比实惠的几种方法
优采云 发布时间: 2021-08-15 04:08
导购网站比价网站、比价比量比实惠的几种方法
一种基于分类器的导购网页信息分类方法
技术领域
[0001] 本发明属于信息分类方法,具体涉及一种基于分类器的导购网页信息分类方法。
背景技术
[0002] 随着社会的不断发展,人们的生活内容越来越丰富,无论是物质上还是精神上。相比之下,每天可用的时间很短,而互联网的飞速发展也让越来越多的消费者更愿意直接在网上选择产品,而不是把时间浪费在长途的户外旅行上。因此,许多传统企业不得不开始转向电子商务的方向。购物成为新的流行词汇,充斥着各大网站和论坛,随之而来的是各大电商更实惠。
[0003] 然而,由于电子商务公司数量众多,产品型号/品种繁多,以及网购产品质量参差不齐,消费者可能会因商品种类繁多而浪费大量时间。选项。各种导购网站、比价网站,甚至导购都是为了帮助消费者快速筛选或快速了解产品,从而节省大量购物时间。
[0004] 做导购网站,导购网页是必不可少的,但是网上有很多导购文章,如何在短时间内满足用户的需求一个问题。
[0005] 对导购网页信息进行过滤是可行的解决方案之一。但是,传统的人工分类方式需要耗费大量的人力和时间,不得不提到机器分类的必要性。在议程上。由于大多数导购网页都有最重要的意图表达之一,因此可以直接通过阅读对网页进行分类,不会因为网站的不同而导致标签和格式功能的差异。
发明内容
[0006] 针对现有技术的不足,本发明提供了一种基于分类器的导购网页信息分类方法。它采用高效简单的方法代替人工分类,通过程序实现导购网页信息化。自动分类。
[0007] 本发明的目的是通过以下技术方案实现的:
[0008] 一种基于分类器的导购网页信息分类方法。改进之处在于该方法包括:
[0009] (I) 处理导购网页数据并生成权向量词表;
[0010](2)培训导购网页,获取每个类别下词汇的权重向量;
[0011](3)通过权重向量计算,实现导购网页的自动分类。
[0012] 优选地,步骤(I)包括
[0013](1.1)采集两批导购网页并提取标题部分;
[0014](1.2)从一批采集结果中截取的标题词;
[0015](1.3)通过信息增益计算生成词汇计数并排序;
[0016](1.4)从另一批采集结果中提取的title中切词;[0017](1.5)是通过在生成的词表中搜索判断生成的分词矢量。
[0018] 优选地,步骤(2)包括随机初始化和训练权重向量以获得新的权重向量。
[0019] 优选地,步骤(2)包括当训练次数超过指定最大值或错误率小于指定阈值时,停止训练。此时,权重为将得到每个类别中的每个表达词。,保留这个训练结果向量。
[0020] 优选地,步骤(2)包括将所有表示价格信息的词统一替换为进行处理。
[0021] 优选地,步骤(3)包括
[0022](3.1)采集的导购网页收录分类信息,直接使用分类,否则使用程序自动分类;
[0023](3.2)提取标题部分并进行分词,进入步骤(I)进行分词搜索,得到标题的分词向量;
[0024](3.3)提取正文部分并进行分词,在步骤(I)中搜索分词得到标题的分词向量;
[0025](3.4)将title和body这两个分词向量相加得到一个总分词向量;
[0026](3.5)将每个类别的分词向量和权重向量相乘,找到最大的item。如果大于阈值,把这个导购文章除以最大的值的类别,否则归入默认类别。
[0027] 优选地,步骤(3)包括分别提取标题部分和正文部分进行分词,并分配不同的权重进行计算。
[0028] 与现有技术相比,本发明的有益效果是:
[0029] (I)从数据源进行过滤,只对导购类型的网页进行训练和分类,得到的加权词更可信。
[0030](2)在人工分类的基础上进行数据训练,得到的权重值更准确。
[0031](3)正式流程中,人工参与大大减少,自动分类结果甚至可以直接使用,无需人工审核。
[0032](4)分类准确率可达80%以上。
图纸说明
[0033]图1为本发明提供的基于分类器的导购网页信息分类方法*敏*感*词*。具体实现方法
[0034] 下面结合附图对本发明的具体实施例作进一步详细说明。
[0035]1.导购网络培训:
[0036](一)采集两批导购网页,提取标题部分,采用人工分类或采集的方法使用定向采集,即指定分类采集 ,进行标准信息分类。
[0037](2)对第一批采集结果中抽取的title的词进行裁剪,统计每个词在所有类别中出现的文章个数,并计算条件概率,Mutual根据结果对信息、卡方、信息增益进行排序,在四种算法的结果之后,信息增益的效果最好,因此本发明利用信息增益的排序结果进行后续训练。信息增益的结果前N个词可以作为权重向量,后面需要用来表示词。[0038]每个类别4个指标:
[0039] dAB:词在所有类别中出现的总次数
[0040] dA:这个词在这个类别中出现的次数
[0041] dB:dAB-dA
[0042] dC:文章数-dA 在这个类别中
[0043] 该类别下的 dD:文章total-文章数-dB
[0044] dCD:文章total-dA-dB
[0045] dIGlTmp:文章数/文章total 在这个类别下;
[0046] dIG2Tmp: dA/dAB;
[0047] dIG3Tmp:dC/dCD;
[0048] dIGl: (dIGlTmp*log(dIGlTmp)) 所有类别的总和
[0049] dIG2: (dIG2Tmp*log(dIG2Tmp)) 所有类别的总和
[0050] dIG3: (dIG3Tmp*log (ClIG3Tmp)) 所有类别的总和
[0051] 条件概率:dA/dAB
[0052] 互信息:(dA*文章total)/(dAB*文章数在这个类别下)
[0053] 卡方:(pow (dA*dD-dB*dC,2)/(dAB*dCD))
[0054] 信息增益:dIGl+(dAB/文章total)*dIG2+(dCD/文章total)*dIG3
[0055](3)对第二批采集结果中提取的title进行分词,在上一步生成的权重向量表达词中搜索,如果存在则标记为1 , not 如果存在,则标记为0,从而生成分词向量。
[0056](4)随机初始化所有权重向量并训练它们:分词向量和每个类别下对应的权重向量分别点乘相加。如果总数大于“大阈值” ”,但是人工标注的分类不是这个分类,那么fConstB=0.9,如果总和小于等于“大阈值”,但是人工标注的分类就是这个分类,那么fConstB=LI,让权重向量=权重向量*fConstB ,从而得到一个新的权重向量。
[0057](5)当训练次数超过指定的最大值或错误率小于指定的阈值时,将停止训练。此时,每个表达词在每个词的权重得到category,训练结果向量留作后用。
[0058](6)由于导购网页上的价格信息一般都非常有用,所以大部分都会在打折、促销、行情等类别中,价格的表现形式也是多样化的,所以在上面的处理过程中,还需要将所有表示价格信息的单词统一替换为进行处理。
[0059]2.导购网页分类:
[0060] (I)如果采集到达的导购页面已经收录分类信息,直接使用分类,否则使用程序自动分类。
[0061](2)从导购网页数据中提取需要自动分类并进行分词的标题部分,也将所有代表价格信息的词替换为。每个切分词的词在训练过程中得到的词汇表中进行搜索,得到一个标题的分词向量。
[0062](3)提取正文部分并进行分词。处理流程与标题相同,但权重低于标题。将两个分词向量相加到得到一个总分词向量。
【0063】(4)将每个类别的分词向量和权重向量相乘,找到最大的item。如果大于“小阈值”,把这个导购文章除以最大的值的类别,否则归入默认类别。
【0064】示例【0065】对于3C数码等导购数据,设置的子类包括:
[0066]“信息、新品、评价、导购、行情、知识、使用体验”,整个流程包括:
[0067](1)首先通过信息增益计算过程得到一批可用于计算的加权词;
[0068](2)然后训练这批权重词和训练数据,得到每个类别的权重词的权重值,即每个类别得到一个权重向量;
[0069](3)最后在正式的过程中,对权重向量进行点乘得到最终的分类。
[0070] 假设已经完成了步骤(I),并且已经得到了一批加权词(见下表第一列),在步骤(2))中设置:
[0071] 最大阈值为'2
[0072] 小门槛为:0.8
[0073] 训练停止条件为:
[0074] (I) 训练次数超过100次;
<p>[0075](2)这种情况连续发生了4次:两次训练结果中自动分类错误次数的差异/文章total