文章句子采集软件(基于几种基于词典的文本挖掘方法,你知道吗?)
优采云 发布时间: 2021-12-27 05:07文章句子采集软件(基于几种基于词典的文本挖掘方法,你知道吗?)
在大多数公司中,反映客户与产品关系的数据占总数据量的 80%。对于企业来说,在制定主要战略时,利用文本挖掘客户与产品的关系非常重要。由于众包挖掘和分析通常充满错误、昂贵且不可扩展,因此公司通常选择自动化技术进行文本挖掘和分析,并生成用户文档。
机器学习技术因其在文本挖掘中的良好适应性而受到研究人员的青睐。然而,大多数公司仍然依赖预先标记的字典方法来进行大多数文本挖掘工作。
在本文中,我们将重点介绍几种基于字典的文本挖掘方法,然后简要概述机器学习如何在数据集发生变化时以更高的准确性和适应性替代这些方法。
意见挖掘
人们通常会评论各种话题,例如产品、新闻和名人。当消费者需要做出购买决定时,往往会参考其他消费者对产品的评价,然后再做出决定。由于人们会对各种实体发表意见,因此挖掘出评论中隐含的信息就显得尤为重要。意见挖掘不仅可以帮助企业获取更多的产品和服务信息,还可以帮助企业做出更明智的决策。
就像在说:“这手机的电池很差,连四个小时都用不上。” 该评论是关于手机(目标)的“电池寿命”,该评论透露出负面情绪。在日常生活中,很多应用场景都需要这样的分析,而且应该更深入一些,从而帮助企业判断产品中哪些组件或功能更畅销,或者哪些需要在下一次更新中改进.
创意挖掘是自然语言处理 (NLP)、文本分析和计算机语言学中的一大挑战。在这里,我们将讨论相关研究工作的最新进展,重点是对互联网上生成的用户文档(如评论、评论)和平台(如微博、论坛、社交网站)上的交互进行评论挖掘。
关键字搜索(词袋)
在词袋模型中,一个句子或一个文档可以看作是一个收录
词的“包”。词袋模型会更关注单词在句子或文档中的出现频率和出现频率,而忽略它们在句子中的语义关系。营销人员罗列了一份显示正面和负面情绪的词列表,并试图分析这两种情绪在文档中谁占主导地位(如果这两个词出现的次数很少,则视为“不评价”)。词袋模型通过在在线词典中搜索同义词和反义词来判断情绪。
例如,当我们需要从大量的用户评论中筛选出与价格相关的评论时,我们通常会针对价格进行关键字搜索,或者搜索与价格密切相关的词,例如定价、收费、支付。
当然,词袋方法也有其局限性。它不能很好地处理*敏*感*词*的文本挖掘任务。
局限性
人类自身的局限性——想出所有相关的关键词或其变体来代表一个特定的概念是极其困难的,因此建立和更新词库对于提高准确性非常重要。
缺乏领域知识——当一个领域的子分支词典应用到其他领域时,可能会产生相反的效果。许多词在其他场景中反映了负面情绪,但在另一个场景中,它们可能会变成正面情绪。以“高油价”为例,在石油公司眼中,这是一个具有积极意义的词。而且,这句话本身就反映了积极的情绪,但其中所收录
的词语却带有消极的情绪,如“修复破败的经济”、“味道还不错”,但这样的陈述在日常生活中并不少见。
通过旧的机器学习进行创新!
使用机器学习技术,用户可以部署人工智能来挖掘非结构化数据。由于其良好的适应性和准确性,机器学习技术受到研究人员的青睐。在使用机器学习技术挖掘文本时,通常包括以下四个步骤:数据采集
、数据预处理、数据训练、结果测试和验证。在训练集中,提供了一组标记数据。基于训练数据集构建模型,可用于对新生成的文本进行分类。在采集
到足够多的评论并进行深入正确的分析后,您可以准确地了解大多数人的感受。当然,这不仅与人的感受有关,还与产生这种感受的因素有关。
模式挖掘
在分类场景中,为了计算与特定标签高度相关的文本模式,我们可以先在一小部分标记的训练集中使用模式发现算法。分类器识别出单词之间的关系并存储起来,方便后续对新生成的文档进行分析。例如,我们需要区分给公司的反馈电子邮件中表达的情绪。此时,常见的与负面情绪标签高度相关的文本可能是“我会选择 XYZCorp”,其中 XYZCorp 是竞争公司的名称。一旦分类器了解到这一点,它就可以将其他新文档分类为人类等标签。
各种情绪背后的动机是什么?
知道情绪的动机,就可以在评论数据中挖掘出特定领域的优缺点。例如,公司高管可以根据这些数据进行有针对性的战略改革,以提高盈利能力或增加市场份额。
在政府部门,这些数据可用于制定与选民产生共鸣的策略和活动,并根据选民不断变化的需求及时做出调整。而且,通过分析情绪的动机,意见挖掘使人们能够有更深层次的社会洞察力——一个了解人们思想和感受的窗口。
通过分析情绪和情绪产生的原因,银行可能会发现,在众多的反馈中,排队和等待时间对客户来说是最重要的。
一家快餐连锁店可能会通过数据分析了解到,虽然他们的服务水平很好,但对于顾客来说,他们的食物份量与竞争对手相比太少了。
如果您想尝试文本挖掘,您可以使用我们现成的文本分类模型,例如情感分析和情感分析,或者使用自定义分类器 API 来构建您自己的分类器。所有 API 都可以在 Excel 插件或 Google Sheets 插件中使用,以便您可以使用电子表格进行文本挖掘。
对于企业来说,文本分类模型可用于公共云或私有云部署,以确保低延迟并遵守隐私法。
您可以在此处找到更多文本分类模型。