直观:一种基于分类器实现的导购类网页的信息分类方法
优采云 发布时间: 2022-09-29 01:12直观:一种基于分类器实现的导购类网页的信息分类方法
一种基于分类器的导购网页信息分类方法
减少量大大减少。无需人工参与,甚至可以直接使用自动分类结果,无需人工审核。分类正确率可达80%以上。
【专利描述】一种基于分类器的导购网页信息分类方法
【技术领域】
[0001] 本发明属于信息分类方法,具体涉及一种基于分类器实现的导购网页信息分类方法。
【背景技术】
随着社会的日益发展,人们的生活内容在物质上和精神上都越来越丰富。相对而言,每天可用的时间很短,加上互联网的高速发展,也让越来越多的消费者更愿意直接在网上选购商品,而不是把时间浪费在长途户外旅行上。因此,许多传统企业不得不转向电子商务。一时间,网购成为了一个新的流行词,充斥着各大网站和论坛,随之而来的是各大电商的性价比更加实惠。
但由于电商数量太多,商品型号/种类繁多,网购产品质量参差不齐,消费者可能会因为可选范围太大而浪费大量时间,所以购物方式多种多样指南。网站、比价网站,甚至导购都是为了帮助消费者快速筛选或快速了解产品,从而节省大量购物时间。
[0004] 为了做好一个导购网站,导购网页是必不可少的,但是网络上导购很多文章,如何满足用户在短时间内就会出问题。
[0005] 通过对导购网页的信息进行分类来实现筛选是可行的方案之一。然而,传统的人工分类方法耗费大量人力和时间,机械化分类的需求不得不提上日程。由于大部分导购网页都有主要的表达意图,所以可以直接通过阅读对网页进行分类,不会因为网站的不同而产生标签和格式的差异。
【发明内容】
[0006] 针对现有技术的不足,本发明提供了一种基于分类器实现的导购网页信息分类方法,通过一种高效简单的方法,代替人工分类,实现对导购网页的自动分类。导购网页的信息由程序实现。
本发明的目的是采用以下技术方案来实现:
一种基于分类器实现的导购网页信息分类方法,其改进在于,所述方法包括:
(1)处理导购类网页数据,生成权重向量词汇;
(2)训练导购类网页,得到该词汇在各个分类下的权重向量;
[0011](3)通过权重向量计算,实现导购网页的自动分类。
优选地,所述步骤(1)包括
[0013](1.1)采集两批导购网页并提取标题部分;
[0014](1.2)对结果中提取的一批采集标题进行分段;
[0015] (1.3)通过信息增益计算生成词表统计个数并排序;
[0016](1.4)对从另一批采集的结果中提取的标题进行分词;[0017](1.5)生成词经过搜索并在表中判断,生成分词向量。
[0018] 优选地,步骤(2)包括随机初始化权向量和训练获得新的权向量。
优选地,所述步骤(2)包括训练次数超过指定的最大值或错误率小于指定的阈值然后停止训练,此时将得到每个分类中每个表示词的权重,保持这个训练结果向量。
[0020] 优选地,步骤(2)包括将所有表示价格信息的词语统一替换为<PRICE>进行处理。
优选地,所述步骤(3)包括
(3.1)采集收录导购网页中的分类信息,直接使用该分类,否则使用程序自动分类;
(3.2)提取标题部分进行切词,步骤(1)中去除切词进行搜索,得到标题的切词向量;
(3.3)提取文本部分并进行分词,将步骤(1)中的分词去掉进行搜索,得到标题的分词向量;
[0025] (3.4)将title和text的两个分词向量相加得到总分词向量;
[0026](3.5)对每个分类的分词向量和权重向量分别进行点乘,找出最大的item,如果大于阈值,则本导购文章 分到最大值的类别,否则分到默认类别。
优选地,所述步骤(3)包括分别提取标题部分、正文部分并进行分词,赋予不同的权重进行计算。
与现有技术相比,本发明的有益效果是:
[0029] (1)从数据源过滤,只对导购类型的网页进行训练和分类,得到的权重词更可信。
[0030](2)数据训练是在人工分类的基础上进行的,得到的权重值更准确。
[0031] (3)在正式过程中,大大减少了人工参与,甚至可以直接使用自动分类结果,无需人工审核。
[0032] (4)分类正确率可达80%以上。
【专利图纸】
【图纸说明】
[0033] 图。附图说明图1为本发明基于分类器实现的导购网页信息分类方法*敏*感*词*。【详细方法】
[0034] 下面结合附图对本发明的具体实施方式作进一步详细说明。
1.导购课网页培训:
[0036] (1)采集两批导购网页,提取标题部分,采用定向采集的方法,即手动分类时指定分类采集或采集 ,执行标准信息分类。
(2)对第一批采集结果中提取的标题进行分词,统计每个词在所有分类下出现过的文章个数,分别计算条件概率,相互信息、卡方、信息增益、按结果排序。通过四种算法的结果情况来看,信息增益的效果最好,所以本发明采用信息增益的排序结果进行训练后面. 获取信息 增益结果的前N个词可以作为后面需要用到的权向量表示词。 [0038] 每个分类四个指标:
dAB:单词在所有类别中出现的总次数
dA:这个词在这个分类中出现的次数
[0041]dB:dAB-dA
dC:文章 number-dA 在这个分类下
dD:文章总数-文章数-本分类下的dB
[0044] dCD:文章总-dA-dB
dIG1Tmp:文章number/文章本分类下的总数;
dIG2Tmp:dA/dAB;
[0047] dIG3Tmp:dC/dCD;
dIG1: (dIG1Tmp*log(dIG1Tmp)) 所有分类的总和
dIG2: (dIG2Tmp*log(dIG2Tmp)) 所有分类的总和
dIG3:所有分类的 (dIG3Tmp*log(ClIG3Tmp)) 的总和
条件概率:dA/dAB
互信息:(dA*文章总数)/(dAB*文章本分类下的个数)
[0053] 卡方:(pow(dA*dD-dB*dC, 2)/(dAB*dCD))
信息增益:dIG1+(dAB/文章total)*dIG2+(dCD/文章total)*dIG3
(3)对第二批采集结果中提取的标题进行切分,查找上一步产生的权向量表示词,如果有则标记为1,如果不存在,将其标记为0,从而生成分词向量。
(4)所有权向量随机初始化,并进行训练:分别进行点乘并将分词向量下各分类下对应的该权向量相加,如果总数大于“大阈值”,但人工标注的分类不是这个分类,那么fConstB=0.9,如果总数小于等于“大阈值”,但是人工标注的分类是这个分类,那么fConstB=LI,设权重向量 = 权重向量* fConstB,得到一个新的权重向量。
(5)则当训练次数超过指定最大值或错误率小于指定阈值时停止训练,此时会得到每个分类中每个表示词的权重,而这个训练结果向量被保留,供以后使用。
(6)因为在导购网页中,价格信息一般是很有用的,大部分会在打折促销、市场行情等类别中,价格的表现形式是多样化的,所以在上述处理过程中,还需要将所有代表价格信息的词语统一替换为<PRICE>进行处理。
[0059]2.导购网页分类:
[0060] (1)如果采集已经在导购类网页中收录了分类信息,则直接使用分类,否则使用程序自动分类。
(2)从导购类网页数据中提取需要自动分类的标题部分并进行切词,同样将所有代表价格信息的词统一替换为<PRICE>。切词出来的每一个词去训练过程得到的词表进行搜索,得到一个标题的分词向量。
[0062](3)提取文本部分并进行分词,标题的处理流程相同,但权重低于标题,将两个分词向量相加得到一个总的分词向量。
(4)分别将切分词向量和各个分类的权重向量进行点积,找出最大的item,如果大于“小阈值”,则本导购文章分为最大值所在的类,否则归入默认类。
[0065] 对于此类3C数码的导购数据,设置子分类包括:
“资讯、新品、评测、导购、市场行情、知识、使用体验”,全流程包括:
(1)首先通过信息增益计算过程,得到一批可用于计算的权重词;
(2)然后对这批权重词和训练数据进行训练,得到每个分类下权重词的权重值,即每个分类得到一个权重向量;
[0069] (3)最后,在形式化过程中,对权向量进行点乘得到最终的分类。
假设(1)步骤已经完成,得到一批加权词(见后表第一列),在(2)步骤中设置:
最大阈值为'2
小阈值为:0.8
训练停止条件为:
(1)训练次数超过100次;
(2)这种情况连续出现4次:在两次训练结果中,自动分类错误次数之差/文章总数<0.001;
所有权重向量都是随机初始化和训练的:对每个分类下的分词向量和对应的权重向量分别进行点乘相加,如果总数大于“大阈值”,但是人工标注的分类如果是不是分类,那么fConstB=0.9,如果总数小于等于“大阈值”,但是人工标注的分类就是这个分类,那么fConstB=LI,让权向量=权向量*fConstB,从而得到一个新的权向量。
训练后,获取每个分类中每个权重词的权重值,如:
[0078]
【权利要求】
1.一种基于分类器实现的导购网页信息分类方法,其特征在于,所述方法包括:(1)处理导购网页数据,生成权重向量词汇;( 2)训练导购网页,得到每个类别下词汇的权重向量;(3)计算权重向量,实现导购网页的自动分类。
2.根据权利要求1所述的基于分类器的导购网页信息分类方法,其特征在于,所述步骤(1)包括(1.1)采集两批导购网页并提取标题部分;(1.2)截取一批采集结果中提取的标题;(1.3)通过信息增益计算生成词表并排序;(1.4)对另一批采集的结果中提取的标题进行分段;(1.5)在生成的词汇表中搜索判断后,生成分词向量。
3.根据权利要求1所述的一种基于分类器的导购网页信息分类方法,其特征在于,所述步骤(2)包括随机初始化和训练权重向量。
4.根据权利要求1所述的一种基于分类器的导购网页信息分类方法,其特征在于,所述步骤(2)包括训练次数超过指定最大值或错误率时小于指定阈值,停止训练,此时获取每个类别中每个代表词的权重,并保留训练结果向量。
5.根据权利要求1所述的一种基于分类器的导购网页信息分类方法,其特征在于,所述步骤(2)包括将所有代表价格信息的词统一替换为<PRICE>进行处理。
将切分词的向量和每个类别的权重向量分别相乘,找到最大的item。如果大于阈值,则将本导购文章分到最大值所在的类别,否则,分到默认类别。
7.根据权利要求1所述的一种基于分类器的导购网页信息分类方法,其特征在于,所述步骤(3)包括分别提取标题部分和正文部分,并将它们分别给出不同的词。计算权重。
【文件编号】G06F17/30GK103544310SQ2
【公示日期】2014年1月29日申请日期:2013年11月4日优先日期:2013年11月4日
【发明人】杨佳、吴伟林申请人:北京中搜网络科技*敏*感*词*
总结:SEO优化有哪些工作要做?怎样让网站快速收录?
做seo优化,有的公司想外包几个关键词优化,找出一些行业最火的词,让外包商优化,看看一个词值多少钱,在如今的搜索引擎及其成熟时代非常困难。当然,这取决于行业的受欢迎程度。小马仕途推荐针对具体问题进行详细分析,并结合搜索量和网络信息量进行评估。
在优化实践中,SEO是一项非常复杂且多步骤的工作。正常的非技术优化需要一定的时间和成本才能实现,需要配合整合营销才能达到更好的效果。然而,这对于绝大多数中小企业(甚至是大中型企业)来说,靠一己之力是难以实现的。因此,SEO优化外包伴随着市场需求而来。
那么,企业该如何做SEO优化呢?我们如何才能使我们的 网站 优化更有效?小马仕途营销顾问系统分享。
首先,让我们了解一下什么是SEO优化?
说到SEO,主要是搜索引擎优化。指使网站符合搜索引擎,通过一些技术操作,使网站是满足用户搜索需求的好网站,从而使网站具有相关性关键词一种在@> 的搜索结果中获得更多曝光的技术方法。
那么我们经常听到人们说的SEM是什么?两者有什么区别?
严格来说,SEM是搜索引擎营销,SEO是搜索引擎优化。SEO是SEM的一种。也就是说,很多受访者表示SEM和SEO是包容的,而SEM包括SEO。
其实爸爸说大众有道理,妈妈说妈妈有道理。有人说成本一言以蔽之:SEO省钱,SEM成本更高。
因此,在中国的实际工作中,SEO是通过各种手段获得的自然搜索流量(国外称为自然流量)。SEM是指基于百度、360等竞价排名的付费搜索引擎广告流量。
其次,我们来看看网站SEO优化要做什么工作?
做SEO优化是一个长期的过程,需要每天坚持以下几点:
1、关键词排名
需要每天打开站长工具等第三方工具查看关键词、主关键词的排名、长尾关键词的变化,然后做一个excel表格记录。这样你就知道 网站 的 关键词 排名并相应地做其他事情。统计关键词的主要目的是分析网站的进一步发展。
2、收录外链流量和PV
后面会用站长工具分析网站、收录情况、IP和PV的外链数变化。可以看到网站的外链数据变化,分析外链变化并做记录。然后及时传递收录的数量和版块,然后分析网站的哪些内容质量好,记录下来,知道用户喜欢什么内容。
里面 3、网站文章
查看数据后,首先要做的是更新网站的文章的内容(注意:文章更新最好固定一个时间段,这样对搜索引擎有利定时抓取内容,养成习惯)。
小马智图推荐大家原创,一定要原创,搜索一些资料,然后自己写文章,带上预定的关键词,养成习惯。尽量不要使用采集软件,采集文章短期内可能有效,长期可能会降级。
4、百度索引及统计挖掘新关键词
文章更新后去百度等平台通过一些工具搜索关于网站的新关键词,以便在更新文章内容时使用以后有些细节一定要做好,不要偷懒。
5、网站的外链发布
外链一般都是用来吸引蜘蛛到收录文章的,除非权重传递的是优质的外链,所以三鹿零网项目经理小马仕途建议大家发布优质的外链链接,一般外部链接有这些:
(1)B2B相关性网站,这种外链的权重转移好,注意B2B相关性
(2)软文发布平台,虽然百度绿萝2.0打软文,但是不错软文(指用户体验高软文)还是可以增加权重的,每天不要发布太多外链,那么几个优质的就够了,保持网站外链的好记录。
6、分析你的竞争对手网站
下一步是分析我们的竞争对手的网站情况,因为在我们这样做的同时,我们的对手也在做同样的事情,所以我们必须了解我们的对手才能获胜,通常是通过观察我们的变化对手网站和我们的改动有什么区别?让我们记录并比较它们。他们的优势和劣势在哪里,我们应该采取预防措施。
7、网站的链接
百度更新算法后,友情链接也被忽略了。确实没有以前那么好用了,但是还是有一定效果的,比如给网站带来流量。在很多情况下,友谊链的网站降级很可能会影响到我们的网站。我们需要做的是尽快找出并通知对方,然后移除友谊链,以确保我们站不会受到影响。影响。所以,这是每天都必须做的事情。
新的网站SEO优化需要一定的内容积累来增加权重。前期,小马仕途建议做网站收录,搜索品牌词,然后通过下拉框优化引流。,从而可以更快地扩大市场。返回搜狐,查看更多