搜索引擎主题模型优化(高森明晨研发部的文本评论技术(TextSentiment)主题模型)
优采云 发布时间: 2021-12-26 01:11搜索引擎主题模型优化(高森明晨研发部的文本评论技术(TextSentiment)主题模型)
原文地址:主题模型及其在文本情感分析中的应用
原作者主题模型及其在文本情感分析中的应用:高森铭辰研发部
随着Web2.0技术的出现和发展,大量用户对人物、事件、产品等目标实体发表评论,例如以下两条短文评论:
(1)》对比多款智能手机后,我选择了8150,性价比还不错。另外,考虑到是3.7的屏幕,尺寸比较合适,不然携带很不方便。”(京东商城用户,2011.11.25);
(2)“我以前在杭州做二手房。用温州炒房者的话来说:世界房价都跌了,杭州房价永远不会跌,因为他们有一个坚不可摧的屏障,那就是杭州的官场。参与。”(网易网友,2011.11.25)。
与客观文本不同,这些高度主观的评论信息收录
了对上述目标实体的舆论,对潜在用户、企业和政府部门具有非常重要的参考价值。例如:潜在用户可能会根据这些评论来决定是否购买。商家需要了解用户使用其产品的反馈或其他商家的竞争情报。各政府部门需要全面掌握辖区内的新闻事件。思想动力学。如果用人工的方式来采集
和分析这些海量的信息,显然成本高、效率低、难度大。文本情感分析技术(Text Sentiment Analysis),利用计算机对非结构化文本评论进行分类提取,
近年来,主题建模(Topic Modeling)成为文本挖掘领域近年来的热点。它可以发现文档和词之间的潜在语义关系(即主题)——文档被视为一组主题的混合分布,而主题也是词的概率分布——从而映射将高维的“文档-词”向量空间转换为低维的“文档-主题”和“主题-词”空间,有效提高文本信息处理的性能。基于主题模型的文本情感分析技术有望通过挖掘各种非结构化文本评论中收录
的主题及其相关情感特征来提高文本情感分析的性能。它也成为了学术界(如UIC的刘冰、UIUC)程翔斋等)和工业界(如谷歌)。我们正在讨论这个方向,希望在知识库建设和商业数据挖掘方面取得一些研究和应用进展。
一、主题模型
如何让计算机“理解”文本是自然语言处理的一个基本问题。前谷歌研究员吴军曾在《数学之美》中指出,数学是信息检索和自然语言处理的最佳工具。例如,向量空间模型用于文本表示,余弦定理用于文本相似度计算,隐马尔可夫模型用于中文分词,奇异值矩阵分解技术用于文本分类等等。目前,基于概率论和数理统计的主题模型是文本挖掘领域较为先进的技术,逐渐应用于关系网络数据挖掘、社交媒体计算、
l VSM和TF-IDF
目前,计算机不具备人脑的结构,无法理解自然语言。因此,首先需要将非结构化的自然语言文本转化为计算机计算的特征文本。矢量空间模型 (VSM) 是 1960 年代提出的文本表示模型。它将文档表示为特征元素(主要是文档中出现的单词)的集合,即 D={t1,t2,...,tn} 。计算一个词的权重最简单的方法是:如果该词出现在文档中,则权重为1;如果没有出现,则权重为0。这种方法的缺点是不能反映文档中词的出现频率。一般来说,文档中出现的单词越多,对文档的重要性就越高。”和几十个停用词应作为例外删除);所以,提出了基于词频统计的TF方法。然而,一个词的重要性不仅与它在文档中出现的次数成正比,还可能与它在语料库中出现的频率成反比。也就是说,一个词在整个语料库中出现的频率越高,它对文档的重要性越低,对文档的区分度越差。因此,在 80 年代,研究人员提出了 TF-IDF(词频-逆文档频率)技术,该技术基于以下假设:区分文档最有意义的词应该是那些在文档中频繁出现但在文档中出现的词。整个语料库中其他文档中出现频率较低的词。TF-IDF结构简单,容易理解,并被广泛使用。但是这个假设并不完全正确,也不能捕捉文档内部和文档之间的统计特征,也不能解决同义词/多义词的问题,所以准确率不是很高。今天的搜索引擎对这个经典的文本降维技术做了很多细微的优化(比如考虑单词在HTML结构化文档中出现的位置等),以便更准确地衡量单词对文档的重要性。
l SVD和LSA
针对 TF-IDF 的不足,Deerwester 等人。1990年提出了潜在语义分析(Latent Semantic Analysis)模型,用于挖掘文档和单词之间的潜在语义关联。LSA的理论基础是数学中的奇异值矩阵分解(SVD)技术。
在现实世界中,一个矩阵可以用来描述很多事物之间的关系。比如文本检索领域中的“word-document”权重矩阵(N个词,M个文档),推荐系统中的“user-product”评分矩阵(N个用户,M个产品);“用户-用户”关系矩阵(通常是N*N矩阵)等等。SVD的作用是将一个更复杂的矩阵转化为几个更小更简单的矩阵的乘积:,而这些小矩阵描述了矩阵的重要特征(Feature)。对角元素是奇异值(特征值的平方根),用于表示该特征的重要性;,表示与特征值相关的特征向量组成的矩阵,用于表示存在哪些特征。在很多情况下,前面r较大的奇异值之和占所有奇异值之和的99%以上(r远小于N,M)。为了压缩存储矩阵,只保留对矩阵影响最大的前r个奇异值,其他较小的奇异值因不重要而删除。这就是LSA的“降维”思路:(如下图)。
X
在文本信息检索领域,矩阵C描述了N个单词和M个文档之间的已知权重关系(比如一个文档中单词出现的次数),通过LSA分解为三个小矩阵U、D、VT . 在这三个矩阵中,U代表词的一些特征,VT代表文档的一些特征;U的第一列粗略表示每个词的出现频率,VT的第一行类似于每个文档中出现的词数。数字是成比例的,D中的奇异值表示潜在语义特征的重要性;分别取出 U 和 VT 的剩余行和列,将它们聚类以找到文档和单词之间的潜在语义关联。LSA的优点是降低了词与文档的关联关系的维数,减少了存储规模;它可以找到单词之间的相似度,文档和文档之间的相似度,以及文档和单词之间的语义关联。它对同义词和多义词有一定的影响。缺点是基于SVD,迭代计算的次数非常多。在处理海量文本数据时,文档和单词的维度会急剧增加,导致SVD的计算复杂度呈三次方增加。目前,开源项目Mahout已经实现了基于Hadoop/MapReduce的并行SVD的实现。它可以找到单词之间的相似度,文档和文档之间的相似度,以及文档和单词之间的语义关联。它对同义词和多义词有一定的影响。缺点是基于SVD,迭代计算的次数非常多。在处理海量文本数据时,文档和单词的维度会急剧增加,导致SVD的计算复杂度呈三次方增加。目前,开源项目Mahout已经实现了基于Hadoop/MapReduce的并行SVD的实现。它可以找到单词之间的相似度,文档和文档之间的相似度,以及文档和单词之间的语义关联。它对同义词和多义词有一定的影响。缺点是基于SVD,迭代计算的次数非常多。在处理海量文本数据时,文档和单词的维度会急剧增加,导致SVD的计算复杂度呈三次方增加。目前,开源项目Mahout已经实现了基于Hadoop/MapReduce的并行SVD的实现。在处理海量文本数据时,文档和单词的维度会急剧增加,导致SVD的计算复杂度呈三次方增加。目前,开源项目Mahout已经实现了基于Hadoop/MapReduce的并行SVD的实现。在处理海量文本数据时,文档和单词的维度会急剧增加,导致SVD的计算复杂度呈三次方增加。目前,开源项目Mahout已经实现了基于Hadoop/MapReduce的并行SVD的实现。
l PLSA和LDA
主题模型主要有两种类型:PLSA 和 LDA。如下图: 主题模型假设每个文档由多个主题组成(用文档在所有主题上的概率分布来表示),每个主题是词上的概率分布(即每个词是主题贡献度),使得文档和词可以映射到相同的潜在语义空间-主题。
针对 LSA 的缺点,Hofmann 等人。1999年提出了概率潜在语义分析(Probabilistic Latent Semantic Analysis)模型。PLSA继承了“潜在语义”的概念,通过一个“统一的潜在语义空间”(即Blei正式提出的Topic概念)将词与文档关联起来。等人于 2003 年);通过引入概率统计的思想,避免了SVD的复杂计算。在PLSA中,求解各种因素(文档、潜在语义空间、词)之间的概率分布是最重要的,EM算法是一种常用的方法。PLSA也有一些缺点:概率模型不够完备;随着文档和单词数量的增加,模型变得越来越大;文档层面没有统计模型;EM算法需要反复迭代和大量计算。
针对 PLSA 的不足,Blei 等人。2003年进一步提出了一个新的主题模型LDA(Latent Dirichlet Allocation),它是一种分层贝叶斯模型,将模型的参数当作随机变量,从而可以引入控制参数的参数。,实现彻底的“概率化”。如下图所示,其中:
是LDA模型的Dirichlet先验分布,表示主题在整个文档集上的分布;表示文档 d 上主题的多项式分布;Z表示文档d的第n个单词的主题;W代表文档d的第n个单词;N表示文档d中收录
的词数;D代表文档集;K代表主题集;表示主题 k 上单词的多项式分布;表示所有主题的先前分布。事实上,去掉总和,LDA就变成了PLSA。目前,参数估计是LDA最重要的任务。主要有两种方法:吉布斯抽样法(计算量大,但相对简单准确)和变分贝叶斯推理法(计算量小,精度弱)。目前,
l 主题模型的扩展
目前,根据不同的应用需求,出现了很多扩展的主题模型。
Ø 考虑语境信息:例如“语境概率潜在语义分析(CPLSA)”将词语境信息引入PLSA;一些研究人员还考虑了来自与地理位置相关的文档中的“地理位置”上下文信息 与地理位置相关的主题是在其中找到的。
Ø 主题模型的演化:引入文本语料的时间信息来研究主题随时间的演化,如DTM、CTDTM、DMM、OLDA等模型。
Ø 并行主题模型:在*敏*感*词*数据处理的需求下,基于并行计算的主题模型也开始受到关注。现有的解决方案有:Mallet、GPU-LDA、Async-LDA、NCL、pLDA、Y!LDA、Mahout、Mr.LDA等;其中pLDA、Y!LDA、Mahout、Mr.LDA等都是基于Hadoop/MapReduce框架的,其他解决方案都是基于传统的并行编程模型;在参数估计方面,Mallet、Async-LDA、pLDA、Y!LDA等使用Gibbs采样方法,Mr.LDA、Mahout、NCL等使用变分贝叶斯推理,GPU-LDA同时支持两种方法.
Ø 引入用户评分信息:将用户对产品或博文的评分信息引入到基本的LDA模型中,例如“Supervised topic models”;
Ø……
二、文本情感分析
文本情感分析,也称为意见挖掘(Opinion Mining),是指对主观情感文本进行分析、处理、归纳和推断的过程;它属于计算语言学的范畴,涉及人工智能、机器学习、数据挖掘、信息检索、自然语言处理等诸多研究领域。根据应用领域的不同,文本情感分析技术可以分为:(1)基于产品评论的文本情感分析:处理用户发布的产品评论文本,一般用于消费者决策辅助和商业舆情监控;( 2) 基于新闻评论的文本情感分析:处理用户对新闻事件的评论,
根据文本粒度的不同,文本情感分析可以分为词级、句子级、文本级和海量数据级:
(1)词级是基础和前提,主要是指评价词的抽取及其情感倾向的分类(如赞美/贬值、快乐、愤怒、悲伤等)。主要有这里有两种方法:(a)基于语料库,即利用大语料库的统计特征,通过观察词之间的共现关系、句子的语法模式等,挖掘出评价词中的评价词。 (b) 基于词典:主要利用词典(如WordNet或HowNet)词之间的词义联系(如同义词、反义词、下义词等)来挖掘评价词。有的需要考虑上下文因素。
(2) 句级任务主要包括:(a)判断句子是主观句还是客观句;(b)如果是主观句,判断句子的情感倾向,提取情感从中定位,讨论相关要素,包括:意见持有者、评价对象、评价对象特征(如价格、地理位置、售后服务、油耗、性价比等)、情感特征、评价时间。这里,中文分词技术是中文文本句子级情感分析的基础,中科院ICTCLAS系统是目前最好的中文分词工具;各种具体方法有监督学习、无监督学习、和半监督学习应用于句子情感分类。
(3)章节级别是指从整体上判断一个文档的情感;由于文档往往收录
多个评论对象(或多个主题),文本级别的文本情感分析技术比较粗糙,不适合大多数应用。
(4) 海量数据层面主要是从互联网上抓取大量关于某个新闻或相关话题、公司及其产品(或竞争对手及其竞争对手)的主观评论文本,并对其进行整合分析。然后挖掘公众对这些目标实体的态度和趋势。
此外,文本情感分析是字段敏感的。例如,图书销售领域的在线评论信息挖掘系统可能不适用于电子数码产品销售领域;它也是语言敏感的。例如,英文文本情感分析的一些技术可能不适合中文文本情感分析;也有一些用户出于某种目的(通常是通过提升或抹黑目标实体的声誉,以达到广告宣传和错误舆论导向的目的,比如“互联网水军”灌水帖)虚假和不真实的意见。这给文本情感分析的实际应用带来了困难。
三、 主题模型在文本情感分析中的应用
近年来,文本情感分析技术在网络营销、企业舆情监测、政府舆情监测等领域发挥着越来越重要的作用。鉴于主题模型在文本挖掘领域的优势,基于主题的文本情感分析技术也成为热门话题。它的主要任务是通过挖掘用户评论中收录
的主题以及这些主题的情感偏好来改进文本情感分析。例如,对于数码产品的网购评论,主题可能是“电池寿命”、“主屏尺寸”、“售后服务”或“性价比”。
从技术实现的角度来看,PLSA、LDA及其扩展模型可以直接应用于用户评论文本挖掘。但业内发现,直接抽取话题的效果往往并不理想。以网上购物评论为例。原创
主题模型主要针对较大的文档或评论句子的集合,学习到的主题主要针对整个产品品牌;在现实中,大多数用户评论都集中在某些功能或内容主题的扩展上(如口味、服务、环境、性价比、交通、快递、内存、电池寿命、原材料、保质期等,这表明用户倾向于更关心产品功能而不是产品的整体评级),并且评论文本往往更短。基于此,有研究者提出从“词-句-段-文档”多粒度划分的角度提取评论主题。例如,Yohan Jo 等人。在WSDM2011会议上提出了ASUM方法:把句子当作文档,句子中的每个词都是隐藏主题的分布,然后用LDA进行主题挖掘;在此基础上,综合话题特征和情感信息,分析用户对这些话题的偏好,输出序列作为输出。这篇文章开头的评论句“对比多款智能手机,我选择了8150,性价比还不错。另外,考虑到是3.7屏,尺寸比较合适,否则携带很不方便。” 例如,主要暗指三星8150智能手机“性价比”和“主屏尺寸”两大主题,与主屏尺寸相关的词语有“3.7”、“屏幕”、“尺寸”、 “携带”(“*敏*感*词*”的同义词);感情用语是“还好”、“合适”、“否则xx不方便”。与此类似,Moghaddam 等人。在SIGIR2011会议上提出了ILDA方法,通过增加相关参数对LDA进行改进,并将其应用于提取评论主题并计算主题的数值量化分数。让我们考虑一个餐厅评估系统。与“价格”话题相关的词可能包括:“价格”、“价格”、“划算”、“贵”、“便宜”、“人均”、“元”、“免费”、“X折” "、"
目前,在线购物评论或新闻评论中往往收录
与评论相关的其他信息,例如产品评分、产品功能满意度评分、优劣区分、喜欢/不喜欢、产品/新闻标签等。如何利用这些信息来帮助更准确地提取话题,以及他们的情感偏好,也引起了研究人员的关注。例如,一些研究人员使用维基百科中的结构化文本来帮助从博客中提取主题。此外,一些研究工作侧重于将“话题词”和“情感词”混为一谈,不区分它们;也有一些研究工作通过设计适当的方法来分别提取“主题词”和“情感词”。
从系统设计的角度来看,基于主题模型的文本情感分析系统主要包括以下几个部分:评论信息采集与预处理(如网页抓取、中文分词、停用词处理等)、主题提取、情感词提取(可能涉及到情感词典的构建)、话题情感分类或评分、话题情感摘要生成(方便用户直接理解话题)、系统评价等。 此外,目前基于话题模型的文本情感分析技术主要以文字评论为主,较少关注文字问答或与客服人员的语音咨询;后者对于挖掘用户需求也很有意义。
四、未来
目前,基于主题模型的文本情感分析技术主要关注“评论文本-主题-词”之间的关联关系,很少从用户层面进行研究;文本情感分析的结果也主要面向大众用户的需求。而不是个性化的用户需求。事实上,这些评论都是与用户相关的。用户级文本情感分析技术研究:user-review text-topic-words,结合推荐系统,针对特定业务应用背景开发了全新的文本情感分析应用系统,有望从概念走向实际应用不久的将来。例如:在电子商务领域,用户往往有明确的用户标识。
互联网用户产生的内容将朝着量化、复杂化、多样化的方向发展,传统的存储和计算模型将不足以支撑这些数据的处理。可以利用云计算在*敏*感*词*数据存储和计算、信息资源整合等方面的优势,引入基于主题的文本情感分析技术。近年来,移动互联网受到越来越多的关注,智能移动设备持有者拥有清晰的用户身份,为基于地理位置的服务、产品推荐、搜索个性化、定向广告等提供了天然的平台。然而,智能移动设备的输入输出能力相对较弱,移动端用户行为与传统互联网用户行为有较大差异,移动端评论文本较短。如何通过挖掘移动互联网评论文本中收录
的主题,更准确地识别用户对相关话题的个性化需求和普及化需求,从而推动精准网络营销,也是我们未来的研究和应用重点之一。