案例研究:营销研究中文本分析应用概述(含案例及代码)

　　本文相关资料

　　克里斯蒂安·洪堡、马丁·克拉曼和阿恩德·沃姆伯格。2022. 市场研究手册.

　　Humphreys A. （2019）自动文本分析。在：Homburg C.，Klarmann M.，Vomberg A.（编辑）市场研究手册。斯普林格，湛。

　　汉弗莱斯、艾希莉和丽贝卡·王仁辉。“用于消费者研究的自动化文本分析。”消费者研究杂志44.6（2018）：1274-1306。

　　总结

　　在过去的二十年中，可供营销研究人员分析的文本数据量呈指数级增长。然而，书面语言充满了复杂的含义、歧义和细微差别。营销研究人员如何将这种丰富的语言表示转化为可量化的数据，以进行统计分析和建模？本章介绍各种文本分析方法。在涵盖了文本分析的一些基础知识之后，总结和探讨了营销研究中的应用，如情感分析、主题建模和组织传播研究，包括产品发布口碑反应的案例研究。

　　关键词

　　一、引言

　　若要了解自动文本分析（稍后称为文本分析），请首先查看其与传统内容分析的关系。内容分析是社会科学中用于系统评估和分析信息内容的方法，通常以文本的形式，内容分析的最早传统可以追溯到16世纪的修道院生活，但现代内容分析最早是由Max Weber（1924）提出来研究新闻学的。从那时起，社会学和传播学的学者使用人工编码的内容分析来调查媒体内容的差异，描述随时间推移的传播趋势，揭示组织或个人关注的模式，并检查个人的态度、兴趣、意图或价值观或群体（例如，Berelson 1971;甘森和莫迪利亚尼1989）。

　　传统的内容分析首先通过Kassarjian（1977）方法大纲引入消费者行为领域，然后由Kolbe和Burnett（1991）重新发明以提高可靠性和客观性，主要关注计算代码之间一致性的标准（另见Grayson和Rust 2001）。在消费者研究和营销中，传统的内容分析已被用于分析杂志广告（Belk and Pollay 1985）、直邮（Stevenson and Swayne 1999）、报纸文章（Garrett 1987）和口碑传播（Moore 2015;菲尔普斯等人，2004年）。虽然文本分析可以提高传统内容分析的效率和可靠性，但它也有局限性。例如，计算机化的文本分析可能会遗漏文本中的微妙之处，并且无法编码更精细的含义。

　　文本分析并不是什么新鲜事，但自从个人计算机被广泛采用以来，它变得更容易实现。General Inquirer（Stone 1966）是最早用于消费者研究的计算机内容分析工具之一（Kranz 1970）。Kranz（1970）解释说，营销中的内容分析涉及字典创建，但没有涉及类别创建，有效性等。从那时起，文本分析取得了长足的进步。

　　二、文本分析的方法

　　在目前的实践中，自动化文本分析基本上包括字典方法和机器学习方法（分类方法、主题模型）。

　　2.1 字典法

　　在研究人员测量文本中的某些想法（概念）之前，他们首先需要找到文本中存在的模式，并通过构建单词列表或一组规则来完成（识别或）测量（Rayson 2009）。该方法已广泛应用于社会科学，如消费者研究（Humphreys and Wang 2018）、心理学（Chung和Pennebaker 2013;梅尔和吉尔2008;Pennebaker and King 1999），社会学（Van de Rijt等人）。2013）和政治学（格里默和斯图尔特2013;Lasswell and Leites 1949），因为词典编纂将理论思想转化为可测量的文本元素，而算法具有可靠的透明度（相比之下，机器学习算法更像是黑匣子）。另一方面，自下而上的方法在工程、计算机科学和营销科学中应用更广泛。营销策略借鉴了这两种方法，尽管基于字典的方法似乎更常见（Ertimur和CoskunerBalli 2015;汉弗莱斯 2010;路德维希等人，2013年;帕卡德等人，2014 年）。基于

　　字典的文本分析方法基于预先开发的单词列表或词典，用于计算文本中单词的出现次数。标准化词典可用于许多结构，例如情感（例如，Hutto and Gilbert 2014），与营销相关的结构，例如真实性和品牌个性（Kovács et al. 2013;Opoku等人，2006年），以及心理学中的许多标准概念（Pennebaker等人，2001年;Snefjella and Kuperman 2015）和其他领域，如政治学（Dunphy et al. 1974;斯通1966）。除了使用标准词典外，许多研究人员还选择创建自己的词典以适应特定上下文，尽管只有在标准词典不可用时才应这样做。

　　这

　　创建字典的最归纳方法是根据研究问题和假设的相关类别，从文档中按频率列出的所有单词和短语开始（Chung和Pennebaker 2013）。如果研究人员事先不知道哪些类别是相关的，他们可以使用定性研究方法在字典开发前的编码过程中创建一组相关概念和相应的单词列表（Humphreys 2010）。例如，为了研究与瑜伽行业相关的报纸文章的制度逻辑，Ertimur和Coskuner-Balli（2015）首次对报纸文章和其他历史文本进行了mainjack编码数据集。通常，数据集中随机选择的样本中有10-20%足以进行编码（Humphreys and Wang 2018），但研究人员应注意数据量，并根据类别或时间段的不均匀性进行相应的分层（Humphreys 2010）。

　　创建字典的最演绎方法是从理论概念或类别中创建词汇。然而，应该注意的是，研究人员和作家倾向于选择比文本数据中普遍存在的更抽象的单词（Palmquist et al.， 2009）。因此，有必要进行仔细的后期测试，以确保字典结构的有效性。在清理和存储文本并创建字典后，研究人员使用Python，Diction，LIWC，WordStat或R等程序来执行计数。然后可以使用传统的统计包保存和分析数据。

　　在字典构建过程中，如果要进行测试后验证，有很多方法可以验证。

　　Pennebeck等人（2001）推荐了一种验证词典的方法，但不是结果测量。在这里，三个研究助理将一个词视为代表或不代表该类别，如果三个编码人员中的两个同意，则保留该词。如果他们不这样做，则应从字典中删除该单词。然后可以计算和报告字典类别的百分比一致性，一般阈值类似于克里彭多夫的阿尔法，高于75%。Weber（2005）提出了一种饱和程序，其中研究人员从一个概念的10或20个实例中抽取样本，并让研究助理对它们进行编码以准确表示类别（或不）。如果比率低于 80%，则应修改字典类别，直到达到阈值。最后一种方法是将计算机编码的结果与来自两个或多个编码器的大量手动编码的结果进行比较。为此，人们从数据集中选择一个随机样本（数量可能因数据集的大小而异），然后人工编码人员根据类别描述对文本进行编码，并像传统内容分析一样计算可靠性。然后可以将其与计算机的附加“编码器”进行比较，以产生相似性分数。尽管这种最终方法比传统的内容分析具有优势，但并不总是必要的，并且在某些情况下会产生错误的结果。正如人类编码人员能够理解计算机无法理解的微妙含义一样，计算机能够在整个数据集中一致且均匀地编码概念，而不会遗漏或偏见。出于这个原因，在某些情况下，将人类编码与计算机编码进行比较就像将苹果与橙子进行比较。

　　基于字典的分析检查了许多领域的理论概念，例如情感情感（Berger和Milkman 2012），解释水平解释层面（Snefjella and Kuperman 2015），制度逻辑（Ertimur和Coskuner-Balli 2015），风险风险（Humphreys and Thompson 2014），言语行为（Ludwig et al. 2016;比利亚罗埃尔·奥德内斯等人，2017 年）和框架（费斯和赫希，2005 年;汉弗莱斯和拉图尔2013;Jurafsky et al. 2014）。通过基于字典的分析，可以探索各种背景，例如产品和餐厅评论（Barasch and Berger，2014，Jurafsky et al. 2014;Kovács 等人，2013 年）、推文（Mogilner 等人，2010 年）、客户服务电话（Packard 等人，2014 年）、博客（Arsel 和 Bean 2013 年）和新闻文章（Humphreys 2010 年;汉弗莱斯和汤普森2014）。

　　2.3 机器学习

　　机器学习细分为分类算法和主题建模。

　　2.3.1 分类方法分类

　　方法基于将文档分类为不同的“类型”，然后进一步描述（计算）文本的哪些元素对该文本数据的“类型”贡献了多少权重（可能性）。例如，Tirunillai和Tellis（2012）使用分类来训练机器模型，以根据星级来识别正面和负面评论。研究人员在训练数据集上使用朴素贝叶斯和支持向量机（SVM）分类器来找出哪些单词预测了星级，然后使用这些信息对整个评论集进行精确分类 - 这意味着他们的算法预测了真阳性 - 68-85%的时间，具体取决于产品类别。Villarroel Ordenes et al. （2017）通过在文本中使用显式和隐性情感指标来测量情绪和情绪强度，进一步完善了情绪测量，并在Tripadvisor，Amazon和Barnes and Noble的一组星级评论上测试了他们的框架。分类模型算法的复杂性各不相同;例如，这些方法的情感准确性从55%到96%不等（Hutto和Gilbert 2014）。

　　分类模型已用于研究综述（Tirunillai and Tellis 2012;Van Laer 等人，2017 年）、在线论坛（Homburg 等人，2015 年）、电子邮件（Ludwig 等人，2016 年）和文学文本（Boyd and Pennebaker 2015b;普莱桑等人，2006年）。例如，为了衡量留言板帖子的情绪，Homburg et al. （2015）对明确的正面和负面帖子的训练数据集进行了分类。然后，他们使用情绪作为独立衡量标准来了解企业参与实际上增加了多少积极的消费者情绪，发现参与回报正在减少。

　　2.3.2 主题建模

　　主题建模是一种方法，它首先将文本解析为离散的单词，然后找到在统计上不太可能发生的共现模式，假设该单词独立出现（如果您不理解它也没关系，请继续阅读）。通过这种方式，分析可以识别可能由清晰呈现的单词表示的类别，然后标记这些短语以表示数据中有意义的概念或特征，就像在因子分析中所做的那样。例如，在酒店评论研究中，Mankad et al. （2016）使用潜在的狄利克雷分配（LDA）来确定出现在用户 TripAdvisor 评论中的五个主题，将便利设施、位置、交易、价值和体验确定为评论者提到的关键主题。潜在语义分析（LSA），k均值聚类（Lee and Bradlow 2011），概率潜在语义分析（PLSA）和LDA（Blei等人，2003）都是主题建模方法，其中LDA是最新和最常见的主题建模分析方法。

　　LDA 是一种分层贝叶斯模型，用于确定给定文档中存在的主题概率分布的组合。在LDA主题建模之前，研究人员需要设置主题数量。假设在选择主题时存在一定的概率分布，并且在该分布中选择表示主题的单词存在一定的分布，LDA 将生成主题的最终列表（由主题中的单词列表表示）和文档中给定主题的概率。尽管大多数方法都是基于单词或短语的，但Büschken和Allenby（2016）使用句子作为分析单位进行了LDA分析，发现这产生的结果比基于单词的LDA预测分数更好。基于句子的模型假设句子中的所有单词都是同一主题的一部分，考虑到Grice的关系和方式指南，这是合理的（Grice 1975）。Büschken和Allenby（2016）使用这个模型从Expedia和On的评论中识别意大利餐厅和酒店的主题。

　　LDA已被广泛用于各种应用（Büschken和Allenby 2016;蒂鲁尼莱和特利斯2014）。与词典编纂一样，测试后验证，在这种情况下，非常希望使用保存的样本或其他预测技术（例如，外部DV）。机器只读取字面意思，因此同音字和其他口语，包括讽刺，可能会有问题，因为它们是太笼统和太具体的词。此外，仔细清理和准备文本可以减少错误，因为在数据

" target="_blank">采集

期间有时会添加文本标记（例如，页眉、页脚等）。

　　3. 文本分析的市场研究应用 3.1 情感分析

　　许多文本分析程序和从业者声称可以衡量情绪，但并不总是清楚这个关键指标意味着什么。在讨论情绪的文本分析之前，首先要讨论什么是情绪，以及情绪可以在文本中体现哪些信息。在大多数营销环境中，研究人员和从业者对消费者对品牌、产品或服务的态度感兴趣。然而，态度是复杂的心理结构，不仅包括情绪，还包括认知信念和意图（Fishbein and Ajzen 1972）。此外，对于任何给定产品，最终购买态度和未来行为（如忠诚度）的重要性在很大程度上取决于环境和参与度（Petty and Cacioppo 1979）。人们在网上表达的态度可能无法完全反映他们的基本态度，他们选择表达的态度可能存在选择偏差，他们的行为也可能与他们支持的态度不同。尽管如此，以情感表达的在线话语可以反映对品牌、产品或服务的一些潜在态度，重要的是，可以影响其他消费者之间的社会共识。情绪已被证明可以预测电影销售（克劳斯等人，2008 年;Mestyán等人，2013年）和股市回报（Bollen等人，2011年;德乔杜里等人，2008年;蒂鲁尼莱和特利斯2012）。

　　如何计算情绪分数

　　除了情绪效价，情绪也可以有力量和确定性。以前的研究已经使用明确的语义影响指标以及隐含的、更实用的影响指标，如言语行为（代表、断言和方向）来成功测量情感强度（Villarroel Ordenes 等人，2017 年）。进一步的研究表明，其他类型的语音，如指标（Potts and Schwarz 2010）和其他语用标记可以指示表达内容，通常在产品评论中表达（Constant等人，2009）。

　　使用预先开发的标准化词典是衡量跨上下文情绪的最可靠方法之一，因为这些词汇表已经在广泛的文本数据上开发和测试。例如，英语情感词典VADAR使用具有基于规则的方法的词典来衡量情绪。具体来说，Hutto和Gilbert（2014）使用了基于先前标准化词典（如LIWC和General Inquirer）的字典组合，但随后还开发了五条规则，考虑语法和语法来衡量强度。使用词典编纂方法测量情感产生的准确性从55%到96%不等，具体取决于上下文（Hutto和Gilbert 2014）。例如，Tirunillai 和 Tellis （2012）使用星级来创建一个准确率为 68-85% 的情感分类系统。

　　3.2 通过文字分析研究口碑

　　迄今为止，文本分析在营销研究中的主要用途是研究在线口碑传播。消费者总是通过人际沟通分享产品信息（Arndt 1967），这已被证明比商业信息更有效（Brown and Reingen 1987; 另见Godes and Mayzlin 2004;钱等人，1998年）。然而，虽然口碑传播过去是面对面或通过电话进行的，但现在可以在社交购物网站（Stephen and Toubia 2010）、社交媒体（Humphreys 2015）以及第三方评论网站和平台上看到和存档。亚马逊上的产品评论，猫途鹰上的酒店评论以及Yelp上的餐厅评论！两者都提供了营销见解，以更好地了解评级与销售和股票价格之间的关系（Moe and Schweidel 2014;施魏德尔和萌 2014;莫伊和特鲁索夫 2011）。例如，Moe和Trusov（2011）发现正面评论对销售有直接影响，但这种影响有些短暂，因为随着人们发布更多的评级，评论变得相对更负面（即，帖子的社会动态随着时间的推移变得相对更负面）。此外，积极性可能因平台而异（Schweidel and Moe 2014;比利亚罗埃尔·奥德内斯等人，2017 年）。

　　在线口碑可以通过衡量情绪效价，评论数量和评级分布的方差来表达（Godes & Mayzlin 2004）。评论数和评分方差与现有建模度量值相对兼容，因为可以聚合评论数，并且可以通过起始评分或其他用户输入来衡量评分方差。情感效价虽然部分由星星测量，但最好用情感来衡量，这需要文本分析作为将语言描述的非结构化数据转换为可以合并到定量模型的数据的方法。应该指出的是，除了情感效价之外，还有广泛的语言属性和语义内容可以为市场研究提供有用的信息（Humphreys and Wang 2018）。例如，Kovács等人（2013）表明，如果评论者在评论中提到真实性，即使控制其质量，餐厅也会获得更高的评级。

　　情感在口碑传播中的作用是一个关键话题。在一项关于分享新闻文章的研究中，Berger和Milkman（2012）发现，积极情绪会增加病毒式传播，但文章中强烈的负面情绪，如愤怒或焦虑，也会增加病毒式传播。通过使用代词进行的文本分析还研究了发送者和语音上下文的影响。Packard和Wooten（2013）使用第一人称代词（“I”，“me”）的标准词典发现，消费者通过口耳相传来表示对特定领域的了解，可以更多地提高自己。消费者也被证明在向大量观众广播时通过分享较少的负面情绪来展示自己，而不是向较小的观众窄播（Barasch & Berger，2014）。在评估电影等产品时，消费者在表达他们对口味的感知与对质量的感知时，更有可能使用指代自己的代词（Spiller and Belogolova 2016）。

　　3.3 创建公司（产品）定位图和主题发现

　　文本分析可用于为品牌、公司或产品创建定位图，并根据特定类别中的属性可视化市场结构。使用 k 均值聚类或 LDA 主题建模，文本中的常用词可以按某些基础逻辑（属性、品牌）进行分组。例如，为了从一组评论中创建相机市场结构的可视化，Lee和Bradlow（2011）首先提取与特定属性（例如，电池寿命，照片质量）相关的短语，然后使用基于短语相似性的k-means对短语进行聚类（计算为词向量之间的余弦相似性）。分析发现消费者提到的属性和对消费者很重要的属性存在差异，但在尺寸、设计和屏幕亮度等专家评论中却没有。同样，使用糖尿病论坛的文本数据，Netzer等人（2012）发现了一些经常在论坛上提及的副作用，但在WebMD等网站上却没有提及（例如，体重增加，肾脏问题）。

　　主题模型和心理学理论之间存在兼容性，例如语义记忆中的传播激活（Collins and Loftus 1975）。例如，人们在谈论某种语义记忆中的相关品牌。受这一想法的启发，Netzer等人（2012）使用评论为汽车品牌制作了感知图，并将其与使用销售（调查）数据测量的品牌转换感知图进行比较。在此过程中，他们发现基于文本分析的结果与基于销售或调查数据的结果之间存在一些显着差异。例如，根据销售数据，韩国品牌的汽车与日本品牌无关。但是，根据文本数据，这些品牌被分组在一起。这表明，虽然文本分析可以捕获认知关联，但这些关联并不一定转化为品牌转换等行为（表1）。

　　文本分析方法、数据源、应用领域、算法、相关案例

　　辞书学

　　在线评论、论坛、新闻、公告、年度报告

　　情绪（情绪）、心理（如解读水平）、品牌关注度、品牌价值、公司形象等

" />

　　词频

　　汉弗莱斯（2010），伯杰和送奶工（2012），帕卡德等人（2018）

　　分类学

　　在线评论、论坛、文献、推文、电子邮件

　　情绪分析、欺诈识别、产品属性、市场结构

　　监督机器学习算法，如SVM，K-Nei*敏*感*词*or，朴素贝叶斯等Homburg et al. （2015），

　　Van Laer et al. （2018）， Tirunillai and Tellis （2012）

　　主题模型

　　产品与服务回顾，西安论坛

　　产品属性、定位图、市场结构等

　　LDA、K-均值

　　Netzer et al. （2012）， Lee and Bradlow （2006）， Buschken and Allenby （2016）

　　3.4 组织和企业环境的测量

　　最后，文本分析可用于通过分析股东报告、新闻稿和其他营销通信来衡量组织的注意力。这些研究主要基于基于字典的分析，并且通常创建字典，而不是使用标准化词典来适应行业或原创

背景和研究问题。例如，学者们开发了词典来研究企业社会责任语言随时间的变化，以揭示发展中国家的差异（Gandolfo et al. 2016）。Lee et al.（2004）在对年度报告的分析中发现，在披露负面信息时，如果这些公司倾向于向内看，一年后的股价会更高，这表明将责任归咎于公司控制因素的组织似乎比不负责任的组织拥有更多的控制权，因此投资者对负面事件的印象更好。

　　企业环境也可以通过测量媒体（如报纸、杂志和贸易出版物）来捕捉。例如，Humphreys（2010）表明，制度和文化环境的变化使美国的*敏*感*词**敏*感*词*业合法化。Humphreys和Thompson（2014）研究了两次危机（埃克森美孚和BP漏油事件）后的风险感知环境，发现媒体叙述有助于遏制这些灾难后的风险感知。Ertimur和Coskuner-Balli（Ertimur和Coskuner-Balli 2015）追溯了瑜伽行业如何随着时间的推移而变化，形成了影响行业品牌和定位的独特制度逻辑。

　　3.5 处理文本数据的问题

　　虽然文本

　　为分析消费者想法和市场战略领域研究提供了一个窗口，在分析文本时仍然有几个问题需要考虑。很少有语言（如果有的话）遵循正态分布模式（Zipf 1932）。例如，像“a”，“he”和“there”这样的功能词约占正常使用的所有语言的40%。名词和动词等常用词占另外59%，这些常用词中只有一小部分通常与研究问题相关。文本数据通常是左偏的（许多零），文档通常收录

不同数量的单词，并且感兴趣的单词通常出现得太少或太频繁，无法进行有意义的比较。由于这些原因，在计算词频后，研究人员通常会在统计分析之前转换数据。此外，由于数据的非正态分布，许多测试（例如方差分析）不适合。

　　因此，文本信息几乎是文档中表示为单词的单词的百分比（例如，Ludwig et al. 2013），并且对数变换通常用于解释偏度（Netzer et al. 2012），尽管使用了几种可能的转换（Manning et al.， 2008）。TF-IDF是一种通常用于解释单词频率的度量，通过整个数据集中单词的整体频率进行归一化（请参阅Salton and McGill 1983，以及随附的转换选项以获取有关计算tf * idf的更多信息）。

　　用于测量共生的传统方法，如皮尔逊相关性，必然会导致数据集中存在大量零的问题（Netzer et al.， 2012）。作为回应，研究人员经常使用余弦相似性或杰卡德距离来比较单词和文档。通常需要使用多种方法来计算共现的一系列稳健性检查，以确保结果不会仅仅由于不经常或太频繁出现的单词而出现（Monroe et al. 2009;Netzer et al. 2012）。例如，如果像“heta”这样的词很常见，那么它们可能会与“安全气囊安全气囊”等不常见的词同时出现。然而，“安全气囊”这个词在概念上可能比像“他”这样的人称代词更容易诊断（信息量更大、更特殊）。由于数据不是正态分布的，统计检验（例如曼-惠特尼检验）可以取代方差分析，该检验检验的是排名而不是绝对数字的显著性。

　　四、拓展：专家与非专家之间，产品发布口碑的差异

　　本节介绍了一个文本分析案例，该案例使用词典编纂方法将数据分析过程分为六个阶段（摘自Humphreys and Wang （2018），消费者研究的自动文本分析，消费者研究杂志，44（6），1（四月），1274-1306）。本文仅部分介绍了消费者对 Apple iTouch 产品推出的 mp3 播放器/无线设备的反应，展示了从理论思想到文本分析的主要步骤。

　　步骤含义函数

　　1. 确定研究问题

　　确定主题，以及与之对应的几个问题

　　2. 数据采集

　　确定数据源;

　　在线数据库或新闻;

　　现有非文本数据（书籍、出版物）的数字化;

　　网络爬虫;

　　采访

　　3. 定义概念

　　定性分析数据的子样本;

　　为每个想法创建一个字典（单词列表）;

　　让编码人员检查并完善词典;

　　初始实施字典以检查误报和漏报

　　4.概念测量（计算）。

　　根据原创

数据计算相关想法;

　　根据研究问题，运行相关计算：

　　占所有单词的百分比;

　　这

　　时间段或类别中的字数百分比;

　　占所有编码单词的百分比;

　　二进制（“属于一个想法”

　　或“不属于一个想法”）。

　　5. 解释与分析

　　根据文章，您的副本从不同角度分析文本;

　　通过不同的角度进行比较;

" />

　　为研究问题选择合适的统计方法：

　　方差分析;

　　回归分析;

　　相关分析;

　　6. 测试后验证

　　子样本由研究助理或研究人员采集和编码，并根据Krippendorf的alpha评估构建的字典是否通过或失败

　　第一阶段：制定研究问题

　　这项研究提出了一个具体问题：

　　产品发布后，专家的反应是否与非专家不同？此外，随着产品的激增，专家和非专家组之间的口碑反应如何变化？

　　专家之间的口碑对产品采用的影响特别大，因此重要的是要了解他们的观点会随着时间的推移而变化，并与非专家组相比。为本研究选择的背景，Apple iTouch的发布，是一个很好的案例研究，因为产品类别和评估产品的标准在发布时都是模棱两可的。

　　第二阶段：数据采集

　　数据来自两个网站

　　研究人员采集

了2007年9月5日至2009年11月6日的iTouch文本数据。关键字搜索“iPod Touch”用于采集

当时该产品可用的所有客户评论的分析。分析中包括对该设备的多个版本（第一代和第二代）的评论，并根据发布日期进行细分。第一代 iPod Touch 于 2007 年 9 月 5 日发布，第二代于 2008 年 9 月 9 日发布。

　　包括评论者（或海报）评论日期、海报名称、评级、海报位置和评论本身文本在内的字段存储为单独的变量。从亚马逊采集

了大约 204 个帖子，从 CNET 采集

了 269 个帖子，因此样本量足够高，可以在组之间进行统计比较。

　　第 3 阶段：定义想法信息

　　处理领域的研究表明，专家处理信息的方式与新手不同（Alba和Hutchinson，1987）。通常

　　根据以前的研究，可以提出几个可行的假设。我们想要进行的战略比较是关于专家和非专家如何评估产品，以及这是否会随着时间的推移而改变。首先，人们可能会期望专家使用更多的认知语言，他们会更严格地评估设备。

　　H1：专家比新手使用更多的认知语言。

　　二、专家

　　也有望关注设备的功能，但非专家更关注设备的使用（Maheswaran 等人，1996 年）。

　　H2：专家比非专家更多地讨论特征。

　　H3：非专家比专家更多地讨论好处和用途。

　　第三，随着时间的推移，人们可能会期望专家能够吸收模棱两可的产品特征（属性），而非专家则不会。因为专家可以更容易地处理模棱两可的分类信息，也因为他们有更高的解读水平，人们会预测他们会比新手更喜欢这种模棱两可的产品，学会吸收模棱两可的信息。例如，在这种情况下，设备的存储使其难以分类（移动与 mp3 播放器）。人们会期望专家更快地理解这种歧义，随着时间的推移，他们会对这个特征进行更少的阐述。

　　H4：随着时间的推移，专家将减少谈论模棱两可的属性（例如存储空间），而非专家将继续讨论模棱两可的属性。

　　最后，先前的研究表明，专家和非专家之间的重点、功能和优势差异会对产品评级产生不同的影响。也就是说，非专家的评级将取决于对娱乐等福利的评估，但专家评级将更多地受到特征的影响。

　　H5：评级将由非专家的利益驱动。

　　H6：评级将由专家的特征驱动。

　　这些只是在线口碑分析中可以探索的众多潜在假设中的一小部分。人们同样可以探索新技术的文化框架（Giesler 2008），或者通过与博主进行产品评论来共同制作品牌传播（Kozinets 2010）。这里提出的问题是 - 随着时间的推移，专家对新产品的反应是否与非专家不同？– 旨在说明使用自动文本分析可以做什么，而不是严格测试专业知识的心理属性。

　　在这个说明性案例中，H1 到 H6 的关键思想是已知的：专家和非专家、认知表达、情感、产品特性、益处。一些思想的衡量标准——认知语言和情感语言——可以通过现有的LIWC词典获得（Pennebaker等人，2001年）。但是，其余的想法（例如产品的功能和优点）是特定于上下文的，并且需要专门构建的字典。此外，可能还有其他特征将专家与非专家区分开来。因此，在本研究的文本分析中，我们使用词典编纂方法来衡量思想。

　　第四阶段：创意衡量

　　为了进行这种分析，Pennebaker等人开发了一个标准的LIWC词典。（2001）除自定义词典外使用。表 3 显示了标准化和自定义词典中使用的类别。标准词典包括人称代词类别，如“我”，词性，如形容词，心理测量预先测试的类别，如积极和消极情绪，以及与内容相关的类别，如休闲、家庭家庭和与朋友相关的语言。

　　在此处开发自定义词典以识别产品的口碑数据类别。研究人员没有考虑区分网站来源，并从两个网站中的每一个中选择了10条评论用于开放编码目的。然后，从每个网站中选择另外 10 条评论并添加编码，直到达到饱和（Weber 2005）。总之，开发自定义词典所需的子样本是 60 条评论，每个网站 30 条，约占所有评论的 11%。创建了十四个类别，每个类别平均收录

六个单词。

　　这一步主要是构建一个与理论思想兼容的词典，通过不同思想的词汇来衡量不同的思想。在表3中，Category是不同想法（Category），对应的单词列表是单词，通过单词的出现次数可以计算（衡量）文本中不同想法（Category）。

　　对评论的定性分析表明，海报倾向于从功能或美学的角度谈论产品。因此，为与特征（例如GPS，相机，硬盘驱动器，电池）和美学（例如，清晰，干净，性感，时尚）相关的单词创建了字典类别。海报还反复查看设备的容量，产品的成本，并报告他们在使用产品时遇到的问题。为每个问题创建类别。由于可能有一些研究人员对产品的使用感兴趣，并且由于海报经常提到娱乐和与工作相关的用途，因此为每种用途创建类别。包括“大”和“小”类别是因为以前的社会学理论认为iPod的成功来自它提供的产品过剩 - 大屏幕，过剩容量等（Sennett 2006）。当涉及到竞争产品时，创建了两个类别来计算，包括 Apple 品牌内部和外部。

　　字典类别由三个编码人员验证，他们建议收录

和排除单词。每个字典类别的编码人员之间的百分比一致性可以在表 3 中找到。Alpha 的平均一致性为 90%。文本文件通过 LIWC 程序运行，首先使用标准词典，然后使用自定义词典。电子表格由三组数据创建：（1）查看直接从网站采集

的数据（例如，发布日期、产品评级），（2）来自标准词典的计算机结果，以及（3）自定义词典计算结果。

　　（表3.png）。

　　例如，要衡量评论文本的社会过程指标（词频），有很多方法可以编写代码来实现计算，以下只是其中之一（代码仅供参考）。

#构建的自定义词典(词表) socialProcessWords= ['mate', 'talk', 'they', 'child'] #待分析的某条评论文本 comment = 'Jim and Jam have a new iTouch.They talk the iTouch is wonderful.' #构念测量方法(统计评论文本中自定义词典词语出现的总次数) def calculate_SocialProcess(text): num = 0 words = text.lower().split(' ') for word in words: if word in socialProcessWords: num=num+1 return num #返回运行结果 socialProcessIndex = calculate_SocialProcess(text=comment) print("social process index is {}".format(socialProcessIndex))

　　跑

2

　　最后对

　　本案例感兴趣的童鞋可以直接阅读原文，对python网络爬虫文字分析感兴趣的童鞋，或者点击课程介绍。

　　引用

　　克里斯蒂安·洪堡、马丁·克拉曼和阿恩德·沃姆伯格。2022. 市场研究手册.瑞士查姆：施普林格。

　　Humphreys A. （2019）自动文本分析。在：Homburg C.，Klarmann M.，Vomberg A.（编辑）市场研究手册。斯普林格，湛。

　　汉弗莱斯、艾希莉和丽贝卡·王仁辉。“用于消费者研究的自动化文本分析。”消费者研究杂志44.6（2018）：1274-1306。

近期文章<p style="outline: 0px;max-width: 100%;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">视频专栏课 | Python网络爬虫与文本分析

读完本文你就了解什么是文本分析

综述:文本分析在市场营销研究中的应用

Pandas库 | 高速读取csv文件的方法

如何在DataFrame中使用If-Else条件语句创建新列

BERTopic 主题建模库 | 建议收藏

Top2Vec | 主题建模和语义搜索库

案例实战 | 企业信息数据采集

使用文本相似度可以识别变化的时间点

PNAS | 文本网络分析&文化桥梁Python代码实现

　　tomotopy | 速度最快的LDA主题模型

　　dvt | 视觉文化分析的Python工具包

　　Stargazer库 | 创建漂亮可发表的多元回归表

　　人文社科类Python免费教程列表

　　量化历史语言学-贝叶斯语言谱系分析

　　Python与文化分析入门

　　Backtrader库 | 均线买入卖出策略实现

在会计研究中使用Python进行文本分析

　　文本分析方法在《管理世界》（2021.5）中的应用

　　hiResearch 定义自己的科研首页

　　SciencePlots | 科研样式绘图库

Wow~70G上市公司定期报告数据集

　　漂亮~pandas可以无缝衔接Bokeh

　　YelpDaset: 酒店管理类数据集10+G

在Python中使用Greppo构建的地理空间仪表

　　解决方案:MATLAB下，采用DTW算法进行语音识别，其中特征参数的提取（MFCC）

　　一、选题的背景、目的和意义

　　随着社会的快速发展，人们的生活水平逐步提高，人们进入了互联网信息时代，对生活智能化的追求进一步提高。在智能生活中，语音识别技术是人机通信的重要手段，语音识别在市场上的应用和分布中非常普遍，在一些实际应用中，语音识别技术是一个非常有竞争力的关键点。例如，在声音控制领域，计算机可以准确识别输入的语音内容是关键点，此外，根据识别结果完成相应的动作。

　　计算机的发展越来越迅速，对这些设备的尺寸要求越来越严格，有时也有特殊需求，比如走路或开车时需要输入信息，传统的键盘输入法已经不能满足用户的要求，而是需要更加方便自然地在旅途中有效地输入信息。语音识别技术的使用可以解放用户的手和眼睛，有效改变人机交互的方式，如目前在一些手持电脑和手机等嵌入式电子产品上使用语音识别技术来控制[1]。

　　为此，本项目将研究基于MATLAB的人声特征识别和控制。需要实现语音控制的使用，用户需要说出指令，通过MATLAB处理的指令信号进入单片机，由单片机执行指令，人机交互非常方便，在当前物联网时代有着广泛的应用前景，这个话题也可以算是人工智能时代应用研究。说话的特征与许多因素有关，例如语气、音色、语速和说话者的情绪。因此，最重要的是建立合理的语音数学模型，提取语音信号参数的特征。在本毕业设计中，我们将对具有一定使用价值的语音信号处理进行研究。

　　2. 语音识别与控制系统方案设计

　　2.1 语音识别方法的选择

　　目前，语音识别有三个研究方向：基于信道模型和语音知识的方法、使用人工神经网络的方法和模板匹配的方法[7]。其中，方法1需要建立人类发音的数学模型，以便计算机能够理解人类的单词。方法二是模仿人脑的神经活动，学习一个新的语音，从一个单词到另一个单词，从一个单词到另一个句子，需要一个庞大的数据库。方法3是模板匹配法，是目前最常用的方法，其算法也比较简单，所以本设计选择了模板匹配法。模板匹配中还有几种匹配方法：（

　　1）矢量量化法（VQ）。

　　矢量量化是将人类语音样本训练成码本，根据

　　辨别训练得到的码本对样本语音进行编码，确定标准是量化形成的失真程度。使用矢量量化的语音识别具有非常快的优点，并且具有很高的辨别精度。

　　（2）隐马尔可夫模型方法（HMM）。

　　隐马尔可夫模型技术应用非常广泛。它将语音转换为符号，并将这些符号的序列合成视为一个随机过程，在导出时表示为系统语音状态。简而言之，HMM模型是概率矩阵的数学模型，从已知中推断未知。

　　（3）动态时间正则化方法（DTW）。

　　说话者信息不仅有稳定性原因（器官组成和发声惯性），还有可变原因（语速及其音调，发声权重和规律性）。同时比较识别模板和参考模板，然后在一定距离处检测两种模板之间的相似程度[5]。

　　以上三种方法各有优缺点，其中矢量量化方法主要用于说话人识别，而这次的设计不是针对特定的人，而是识别语音的内容，因此不适合使用。隐马尔可夫模型构建数学模型比较复杂，对于初学者来说有点困难。因此，基于上述基础，最终选择动态时间正则化（DTW）算法来实现该设计。选择动态时间计（DTW）算法的主要原因是该算法相对容易理解，广泛应用于人类语音识别领域，并且比其他几种方法更容易编程和实现。最终的识别率也是理想的，这将在软件设计一章中详细描述。

　　2.2 语音识别/控制系统的整体设计

　　语音识别是指利用一定的数据信号处理，让机器理解说话人的意思。识别语音内容是将单词的内容与许多单词区分开来，这是一种一对多的关系，这种技术一般采用模式匹配。语音控制是通过特定的通信方式将识别出的命令发送到下级计算机，实现对下级计算机单片机的控制，从而达到语音识别的目的。

　　为了实现语音识别控制，必须先训练样本，然后才能达到识别目的。样本训练一般表现为对数据的挖掘，对大量样本进行训练，然后从中提取其实质性参数。模式匹配基于一种特殊的算法，计算和分析待识别样本与训练样本的特征参数之间的相似度，最终得到最优匹配。

　　语音识别/控制系统显然包括识别和控制两部分，系统的主要部件包括上位机和下位机两部分上位

　　机模块：上位机主要是笔记本，笔记本声卡

" target="_blank">采集语音信息，用途

　　MATLAB数据处理功能首先对声音信号进行预处理，特征参数提取，语音正则化，然后利用模板匹配算法进行语音识别，最后转换成指令发送到下位机，上位机与下位机之间的通信方式为红外通信。下

　　部计算机模块：下部计算机主要以单片机为主，接收到上位机的信号后，单片机开始运行，控制被控制对象完成相应的动作，此时控制对象转向直流电机，通过语音信号控制电机的正反转，加速、减速、停止动作。

　　图

　　2.1 语音识别/控制系统框图

　　3. 图形用户界面设计

　　软件设计分为两部分，语音识别系统设计和控制系统设计。

　　其中，语音识别系统的设计主要包括模板训练、语音采集、端点检测、窗口取景、特征参数提取、模板匹配、通信程序和人机交互界面设计。上位机的软件设计也是本次毕业设计的重点，语音识别的效果直接影响整个系统的运行。

　　控制系统软件设计以单片机设计为主，主要分为串行通信程序和电机控制程序两部分。

　　3.1 语音识别系统设计

　　该语音识别系统的软件设计主要基于MATLAB。MATLAB具有强大的数据处理功能，也称为矩阵实验室，在编程方面，MATLAB可以用C编写，而MATLAB提供了许多可以调用的函数，MATLAB的GUI功能可以轻松绘制人机交互界面。语音识别系统的软件设计分为信号采集、信号预处理、特征参数提取、窗口框架、端点检测等几个部分。软件流程图显示在以下页面上：

　　图

　　4.1 语音识别软件流程图

　　3.1.1 语音信号采集

　　一般来说，捕获语音可以通过三个步骤实现。首先是使用传感器接收语音信号，其次是信号放大和信号调理。第二种是使用A/D转换电路将语音模拟信号转换为数字信号。第三部分是利用电路接口将数字信号传输到PC。本设计过程中使用的笔记本附带的声卡调用MATLAB声卡的使用功能，因此可以直接使用计算机内存声卡功能进行语音。

　　在 MATLAB 中，声卡调用函数为：

　　fs =44000;

　　R = 录音机（fs，16，2）;

　　其中，fs是采样频率，频率越高，

　　保真度较好，但不能太高，一般来说，根据人声的特点采样频率可以在8000Hz以上，采样频率越高，硬件要求越高。 16表示采样数据以16位保存，2表示采集两个通道的语音信号。

　　3.1.2 语音信号预处理

　　语音采样后，对信号进行预处理，首先对信号的幅度进行归一化[9]。方便后续处理，避免不必要的干扰;然后通过高通滤波器，滤除一些低频噪声。最后，利用语音信号来构图帧，即利用语音的短期平滑特性[10]。对很长的语音信号进行分割，一般在10ms以内，即在时域上将波动的语音信号分为短而稳定的语音信号。具体来说，是通过在语音信号中增加一个窗口函数来实现的，即rw（n）=r（n）*w（n），其中are（n）是原创

语音信号，rw（n）是添加窗口函数后的语音信号，w（n）是窗口函数。窗口函数，就像移动窗口一样，窗口函数只有一个区间不为零，其他区间为0，所以当信号卷积窗口函数时，相当于只取那个区间的值。在语音信号的处理中，汉明窗通常用于语音框架。框架的示例如下：

　　图

　　4.2 帧长帧移例图

　　通过预处理，语音信号变得更容易分析和提取参数。预处理 MATLAB 实现代码如下：

　　k=双倍（k）;

　　k=k/max（abs（k））; % 归一化

　　k=filter（[1 -0.9375]，1，k）; % 高通滤波

　　k=enframe（k，256，80）; % 调用窗口函数

　　其中k是语音信号，在高通滤波器中，参数是滤波器系数，可以表示为等式：

　　KJ是滤波后

　　新得到的序列，Ki是滤波前的序列，通过这个差分滤波方程后语音信号会变得更加平滑，有效滤除一些低频噪声。

　　预处理后的语音信号如下：

　　图4.3 预处理后的语音信号

　　3.1.3 MFCC语音特征参数提取

　　MFCC 是梅尔频率倒谱系数的缩写。具体来说，对语音信号进行帧处理，然后提取每帧的频谱特征参数。如果保存了训练模板的语音样本，则会将其保存为模板参数文件，并在待测试的语音信号进来时调用模板参数文件以匹配模板。MFCC语音特征参数提取广泛应用于语音识别和说话人识别，其处理流程如下：

　　图4.4 特征参数提取过程

　　3.1.4 端点检测

　　（1）端点检测功能

　　端点检测是删除语音信号的无效部分，并确定有效语音信号的起点和终点。端点检测减少了计算，端点检测质量与模板匹配的准确性直接相关[12]。因此，这部分是一个非常关键的地方，需要经过多个参数调试才能达到更好的效果。

　　（2）端点检测方法

　　本设计采用的端点检测方法是短时能量和短时平均过零率的双阈值检测方法。

　　1）短期能源

　　短时能量是计算一帧语音信号的能量幅度，其中S（n）是窗口化后的语音信号。短期能量一般在信噪比高的情况下使用，当没有语音信号时，噪声能量很小，而当有语音信号时，能量明显增加，因此更容易区分。公式如下：

　　（4.3）

　　2）短期零穿越率

　　这

　　短期过零率基于一帧语音信号波形穿过横轴的次数，即语音信号改变正负号的次数[13]。

　　（3）软件实现要实现端点检测，

　　主要是正确设置过零率高低阈值和能量高低阈值参数，然后做端点计算，参数的选择直接影响端点检测的准确性，因此需要多次调试。当能量高于平均能量的1/8.2时，可以认为语音已经进入过渡段，当语音信号能量高于平均能量的1/4.2时，可以认为语音已经进入语音段。零越线率在辅助判断方面也起着作用。

　　MATLAB 阈值设置语句：

　　ZcrLow=max（[round（mean（zcr）*0.1），3]）; % 过零率低阈值

　　ZcrHigh=max（[round（max（zcr）*0.1），5]）; % 过零率高阈值

　　安培低=平均值/8.2;% 能量低阈值

　　安培高=平均值/4.2; % 能量高阈值

　　（4）测试结果检测

　　结果如下，从下图可以看出，同时使用这两种方法进行端点检测的效果明显，准确识别有效语音段的起点和终点，即用红色垂直线标记的地方。

　　图4.5 端点检测结果

　　3.1.5 DTW识别算法

　　（1）算法原理

　　由于人们说同一个词的长度不同，传统的距离检测方法无法很好地计算出模板语音和测试语音的相似度。DTW算法是解决欧氏距离等方法无法解决的序列长度不等的问题，计算两个不同时间长度的序列的相似性。具体来说，通过找到这两个波形对齐的点，然后计算它们的距离，而不是直接计算。模板语音的帧数n=1~N在二维笛卡尔坐标系的水平轴上标记，参考模板的帧m=1~M标记在纵轴[5]。i 表示测试语音的帧数，j 表示模板语音的帧数 [14]。将这些语音帧与网格线连接起来的目的是根据一定的约束条件逐步计算，即表示模板语音与要用直线距离测量的语音的特征参数之间的差异，并找到距离最小的模板语音作为最佳匹配对象。通常，约束约束每个步骤的大小和方向，并且每个步骤只能沿三个方向中的一个移动，如下图所示：

　　原理如下：

　　图4.7 大田算法原理

" />

　　（2）算法特点

　　首先，因为需要将要测试的语音与所有模板匹配一次，然后找到最佳匹配点，计算量非常大，因此识别时间很长。其次，DTW识别算法的准确性与终点的检测结果有很大关系[15]。但是，由于噪声或影响终结点检测的小电流，例如无法识别终结点或将噪声视为有效语音，可能会发生错误。但是，此设计中端点检测的效果不错，因此此问题影响不大，只是识别时间的问题。如果模板太少，识别速度更快但相应的准确率会降低，相反，如果要提高识别率，只需增加模板数量，然后识别时间就会增加，所以你必须找到一个合适的中间数，这样识别时间和识别准确率都处于更理想的状态。

　　3.1.6 人机界面设计

　　这

　　人机界面是使用 MATLAB GUI 设计的。在这个界面中，设置了两个按钮，一个模板导入，主要功能是形成一个模板数据文件，模板匹配时方便调用，这个按钮只需要使用一次。另一种是语音采集按钮，主要功能是采集语音信号，说话人点击这个按钮后有提示，需要按照提示说话。

　　总结人机交互界面的主要功能，有以下几点：

　　（1）提示说话人发送语音命令

　　（2）显示语音识别结果

　　（3）显示电机当前工作状态

　　（4）语音信号波形和端点检测结果可视化

　　图4.9 界面说明

　　4、操作效果

　　打开 GUI，首先单击模板导入按钮即可

　　将模板参数另存为文档，然后单击声音捕捉按钮在文本框的提示下开始说话。三个波形图是：预处理的语音和终点检测、短时过零率和短时能量。以下是测试人员在用普通话对着麦克风说“反向”时的反应：

　　图4.1 界面操作结果

　　一些源代码参考

function pushbutton1_Callback(hObject, eventdata, handles)

% hObject handle to pushbutton1 (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

global R k

global StartPoint EndPoint FrameInc zcr amp

global zcrInd ampInd ref

fs =44000;

R = audiorecorder(fs,16,2);

str=['请开始说话....'];

set(handles.edit5, 'string',str);

record(R);

pause(2.4);

pause(R);

str=['请结束说话！'];

set(handles.edit5, 'string',str);

stop(R);

k=getaudiodata(R);

k=double(k);

k=k/max(abs(k));

t=0:1/fs:(length(k)-1)/fs;

axes(handles.axes1)

plot(t,k);

axis([0,(length(k)-1)/fs,min(k),max(k)]);

FrameLen=240;%帧长

FrameInc=80;%帧移

FrameTemp1=enframe(k(1:end-1),FrameLen,FrameInc); %分帧函数

FrameTemp2=enframe(k(2:end),FrameLen,FrameInc);

signs=(FrameTemp1.*FrameTemp2)0.01;%矩阵绝对值小于0.01为0，否者为1

zcr=sum(signs.*diffs,2);

zcrInd=1:length(zcr);

axes(handles.axes2)

plot(zcrInd,zcr);

axis([0,length(zcr),0,max(zcr)]);

amp=sum(abs(enframe(filter([1 -0.9375], 1, k), FrameLen, FrameInc)), 2);

ampInd=1:length(amp);

axes(handles.axes3)

plot(ampInd,amp);

axis([0,length(amp),0,max(amp)]);

ZcrLow=max([round(mean(zcr)*0.1),3]); %3to5 %过零率低门限

ZcrHigh=max([round(max(zcr)*0.1),5]); %5to7 %过零率高门限

AmpLow=mean(amp)/8.2; % 能量高门限

AmpHigh=mean(amp)/4.2;

MaxSilence=32; %最长语音间隙时间

MinAudio=16; %最短语音时间

Status=0; %状态：0静音段,1过渡段,2语音段,3结束段

HoldTime=0; %语音持续时间

SilenceTime=0; %语音间隙时间

for n=1:length(zcr)

switch Status

case{

0,1

}

if amp(n)>AmpHigh | zcr(n)>ZcrHigh

StartPoint=n-HoldTime;

Status=2;

HoldTime=HoldTime+1;

SilenceTime=0;

elseif amp(n)>AmpLow | zcr(n)>ZcrLow

Status=1;

HoldTime=HoldTime+1;

else

Status=0;

HoldTime=0;

end

case 2,

if amp(n)>AmpLow | zcr(n)>ZcrLow

HoldTime=HoldTime+1;

else

SilenceTime=SilenceTime+1;

if SilenceTime

AI时代内容工厂

案例研究:营销研究中文本分析应用概述(含案例及代码)

0 个评论

发起人

AI时代内容工厂

案例研究:营销研究中文本分析应用概述(含案例及代码)

0 个评论

发起人

相关问题