总结:【让研究更容易】如何结合机器与人工进行文本数据研究?
优采云 发布时间: 2022-09-29 16:16总结:【让研究更容易】如何结合机器与人工进行文本数据研究?
编者按:在上一篇文章中,我们梳理了人工智能如何应用于文本数据研究的理论和发展问题(点击回顾☛人工智能如何应用于文本数据研究?)。
本文重点介绍如何实现人工智能与社会科学研究方法的融合。基于大数据技术辅助在线内容分析的开发和实际操作,如何使用DiVoMiner®进行文本数据挖掘和分析。
大数据技术是如何辅助在线内容分析发展的?什么是大数据技术辅助的在线内容分析,它是如何工作的?这个方法能分析什么?应用在哪些领域?
在社会科学研究领域,从传统的内容分析到计算机辅助的内容分析,再到结合人工智能算法和大数据技术的内容分析,文本内容的挖掘和分析方法,随着技术的发展和社会的需要研究,对意义挖掘的深度逐渐由浅入深。本文介绍了大数据技术辅助内容分析的操作流程和应用领域。
内容分析
内容分析是社会科学研究方法中的一种定量分析方法,它对文本内容的语义进行编码、分类、判断并形成统计分析。是指对传播内容进行系统的、客观的、定量的研究和分析,以衡量和解释传播内容的研究方法。[1]
回望
早在1961年,“内容分析”一词就出现在韦伯的词典[2]中,当时内容分析主要用于神学研究,主要是用修辞方法研究非宗教观念和其他异端观念。传播。在两次世界大战期间,Harold D. Lasswell 使用内容分析来分析报纸报道的内容,并研究战争期间的宣传技巧。
后来,内容分析法成为一种独立的、科学的研究方法。作为“社会科学的重大进展”[3]之一,它逐渐被应用于社会科学的各个领域。
内容分析可以做什么?
内容分析被视为一种研究方法,它使用一组程序从文本中得出有效的推论[4]。具体的方法是衡量大众媒体中某些变量的数量[5]。也就是说,“对传播符号进行系统和可复制的检查,即根据有效的测量规则分配它们,并对这些值所涉及的关系应用统计方法,以描述传播及其含义推断”[6] .
内容分析是一种研究方法,是一种系统的、可重复使用的研究方法,用于将杂乱无章的非结构化文本内容转化为结构化数据,即可视化图表,对内容进行分析和解读。, 以得出深入的推论、见解和挖掘价值。
DiVoMiner®文本大数据挖掘分析平台【统计分析】模块部分页面截图
计算机辅助内容分析
一是作为辅助工具,协助进行数据处理和数据管理。正是在 1960 年代,哈佛大学的 Biz Stone、Evan Williams 等人开发了一种名为 General Inquirer (GI) 系统 [7] 的计算机辅助定量内容分析软件,该软件可辅助内容分析中的数据处理相关操作,并应用计算机技术辅助的内容分析逐渐开始。
1980年代,MAXQDA、NVivo、ATLAS.ti等一系列计算机辅助/辅助定性数据分析(CAQDAS)软件相继出现,辅助数据管理、编码、检索、标注和可视化。[8]
另一种是计算机辅助内容分析作为技术主导的方法。即结合语言学和认知心理学,将文本浅层意义的发现推向深层意义的挖掘,将大数据平台与人工智能算法相结合,辅助在线内容分析进行自然语言处理,挖掘文本的深刻意义和洞察力。
大数据技术助力在线内容分析
大数据技术辅助的在线内容分析方法是我们提出的一种改进的研究方法。(张荣贤、曹文元:《互联网舆论研究的新路径:大数据技术助力网络内容挖掘与分析》,汕头大学学报(人文社科版),2016年第8期,111- 121.)
计算机辅助内容分析开始将人工智能算法和大数据技术结合起来,体现在数据采集、数据存储、数据处理和数据分析的过程中,都需要技术手段,尤其是在过程中的大数据研究。面临的信息覆盖、数据测量、海量信息分析结果解读等挑战,都需要智能技术与科学严谨的研究方法相结合来解决。因此,大数据技术辅助在线内容。分析方法应运而生[9]。
具体操作流程
大数据技术辅助在线内容分析方法是基于科学方法论——内容分析方法的基本过程,利用网络挖掘、机器学习、自然语言文本处理、人工智能编码、实时可靠性测试、统计分析、社交网络分析等。文本大数据的在线处理产生文本大数据项目的定制化研究成果。具体操作流程如下:(是严谨的方法论研究过程)
填色部分可以在线完成,整个大数据技术辅助的在线内容分析方法可以在Smart Science的DiVoMiner®文本大数据挖掘分析平台上进行。
在我们确定了研究问题或假设之后,研究数据库的建立、抽样、可靠性、编码、统计分析、可视化等都可以在线完成。
分析什么?
首先要明确,内容所指的对象是任何一种可以传播的信息,包括“文字、意义、描述(图片)、符号、思想、主题等”。不同于文本分析仅限于文本或文案,内容分析文本来源于传播媒介,包括书面、视觉或口头[10],包括书籍、章节、采访、讨论、报纸头条和文章、历史资料、演讲、谈话、广告、戏剧、非正式对话或任何交际语言 [11]。
也就是说,任何符号都可以用于内容分析。大多数社会科学研究基于对新闻报道、社交媒体内容、文学作品、历史档案、访谈、学术文献、政策文本、演讲、图片和视频的内容分析。
可以应用于哪些领域?
希望大家可以尝试用内容分析来进行各自领域的研究。当然,这只是应用领域的一部分。了解大数据技术辅助的在线内容分析方法后,可以尝试更多的领域和方向。
其他……欢迎大家来补充,小编喜出望外。
暗示
在了解了大数据技术辅助在线内容分析方法可以应用的一些领域后,小编将为大家提供一些具体的研究方向供大家参考,然后以传播为例!
内容分析的研究模式可以从传播内容、传播者和传播过程中涉及的受众的角度进行设计。
分析同一传播源的内容,不同时期或阶段的变化。例如:分析过去10年新闻媒体环境新闻报道主题的变化。
讨论同一传播源的内容在不同的历史、政治和文化情境中如何变化。例如:分析互联网PC和手机时代的广告设计变化。
探索相同的传播源是否会为不同的读者产生不同的内容。例如:分析《人民日报》内地版与海外版在国际贸易问题的报道方面的差异;将政客的演讲内容与不同的人群进行比较。
分析同一传播源中不同内容的相关性。例如:分析某自媒体发布的大量内容是否存在关联;分析同一电视台不同节目呈现的数值是否存在相关性。
比较不同传播源的内容,推断传播者之间的差异。例如:比较精英新闻媒体和大众新闻媒体的编辑立场,探究不同面向读者的新闻媒体的编辑立场是否不同。
在采用一定的标准时,来评价传播者的表现。例如,将*敏*感*词*的记录与报纸上关于暴力*敏*感*词*的报道进行比较,以评估新闻报道是否正确;以一国舆论代表在选举前的政见为标准,比较选举后的质询或言论内容,评价民意代表的表现。[12]
后记
后续我们将提供论文欣赏和案例拆解,介绍如何使用DiVoMiner®进行文本数据研究。更多内容,请继续关注。
参考
[1] Kerlinger, FN (1973)。行为研究的基础 (第 2 版)。纽约:Holt, Rinehart & Winston。
[2] Krippendorff, K. (2013)。内容分析:方法论介绍。加利福尼亚州千橡市:SAGE。
[3] 赵荣英、邹飞 (2005). 内容分析基本理论问题探讨. 图书情报工作, 49 (6), 14-18.)
[4] Weber, RP (1990). Basic content analysis (2nd ed.). Newbury Park, CA: Sage, 9.
[5] Berger, A. (1991). 媒体研究技术。纽伯里公园, CA: Sage, 25.
[6] Riffe, D.、Lacy, S. 和 Fico, FG(2005)。分析媒体信息:在研究中使用定量内容分析(第 2 版)。新泽西州 Mahwah:Lawrence Erlbaum Associates, Publishers, 20.中文译本参见:Daniel Reeve, Steven Rice, Frederick G. Fick, Reeve, Rice, Fick, etc. (2010) . Content Analysis: Research Techniques for Quantifying Media Information. Tsinghua大学出版社。
[7] General Inquirer 的主要用途包括:系统地在文本中查找属于受访者指定类别的单词和短语的实例;计算这些类别的出现次数并指定同时出现;打印表格和图表;进行统计测试;根据句子是否收录特定类别或类别组合的实例对句子进行分类和重组。参见:Stone P.、Dunphy, D.、Smith, M. 和 Ogilvie, D.(1966)。一般询问者:内容分析的计算机方法。剑桥:麻省理工学院出版社。
[8] Wiedemann, G. (2016). Text Mining for Qualitative Data Analysis in the Social Sciences: A Study on Democratic Discourse in Germany. Wiesbaden, Germany: Springer VS, 43.
[9]张荣贤,曹文元(2016).网络舆论研究的新路径:大数据技术辅助网络内容挖掘与分析.汕头大学学报(人文社会科学版),(8),111-121。
[10] Neuman, W. (1997). 社会研究方法:定性和定量方法。Needham, Heights, MA: Allyn & Bacon, 272-273.
[11] Palmquist, M. (2013)。内容分析。检索自 /courses
[12] 周翔. (2014),传播学中内容分析的研究与应用,重庆:重庆大学出版社。
DiVoMiner® 是根据学术标准进行定量内容分析的一站式平台。注册、登录、分享给你的朋友、学习研究方法、写论文、免费报告!
不想错过《文本数据挖掘与分析》的文章,扫一扫《文本数据挖掘与分析》公众号,可以看到最新推送的文章首次订阅名单!做原创,尤其是研究,真的不容易。欢迎大家点赞、分享、留言!
欢迎DiVoMiner®用户为本公众号投稿,分享您的研究论文或想法,让更多人看到您的成果!
经验:为什么想学好人工智能,就一定要建立起「系统」的概念?
作者|洪良杰编辑|李佳作为人工智能工程师和数据科学家,需要建立对“系统”的最基本认识。这些认知可以帮助你快速将书中的理论知识与实际应用场景结合起来。本文节选自极客时光App洪亮杰开设的付费栏目《AI技术内参》。
请在 [Geek Time] 收听 9' 完整音频。
对于刚接触人工智能的工程师或数据科学家来说,在知识积累的过程中,“系统”往往是一个容易被忽视的环节。尤其是非计算机专业的朋友,普遍还没有真正建立起“系统”的概念,以后从事人工智能相关工作很可能会遇到一些障碍。
今天,我想与大家分享作为 AI 工程师和数据科学家需要构建的“系统”的最基本理解。这些认知可以帮助你快速将书中的理论知识与实际应用场景结合起来。
了解管道
在很多人工智能初学者的认知中,机器学习的过程是这样的。有一个准备好的数据集,其中已经有各种特征和相应的标签或响应变量。此时,您需要做的就是使用这个数据集和一些现成的机器学习工具包来训练一些机器学习模型。模型训练好后,可以计算出一些已知的评价指标,比如准确率、精度等。
这是一般教科书和课程中介绍的标准机器学习过程,也是许多机器学习论文中的实验设置。不幸的是,这种静态过程不适用于工业级数据产品。
要支持工业级的人工智能产品,最基本的概念之一就是你需要构建一个管道,让你的环境动态和闭环。在英语背景中,“管道”一词生动地描述了这种环境的特点。我们将数据视为“管道”中的水,这里的核心思想是数据从一个链接不断地流向下一个链接。然后我们结合最终的产品,也就是流水线的末端,和初始数据采集部分,也就是流水线的开始,想一想,这是一个闭环。
理解一个数据产品的核心,就是理解它是一个闭环。数据产品的几乎所有困难、问题和解决方案都可能来自这个闭环。从静态的机器学习过程到动态的流水线式闭环,这是一个质的变化,对整个链条的所有步骤都有新的要求。
我将在这里以数据集为例。在静态过程中,我们不需要过多关注这个数据集的来源。甚至 采集 数据集的代码或脚本也可以是一次性的并且没有可重用价值。但是这种情况在管道的上下文中是不可能的。
在流水线中,采集data的可靠性和可重复性是非常重要的一步,这对采集data使用的代码有不同的要求。这部分代码需要反复检查,每一步都需要AI工程师和数据科学家检查。如果我们将此示例扩展到数据管道的其他部分,很明显数据管道为构建机器学习过程带来的根本变化。
管道的另一个重要特征是自动化。不能自动化的管道不能称为管道。这里的自动化有两个含义。一种是指数据本身可以自动采集、组织、分析,然后自动流入机器学习部分,结果自动输出,可供在线系统使用;另一个第一层意味着每个环节本身不需要人工干预,或者只需要很少的人工,就可以高可靠性地运行。可见,流水线的自动化对各个环节的技术选型和实施都有非常高的要求。
在现代互联网公司中,每个团队,甚至是专门的团队,一般都会为机器学习流水线开发工具平台,这样流水线的灵活性、自动化、可靠性都能得到充分的保证。对于初学者,尝试从管道的角度理解问题,从整个系统的角度理解产品开发过程,理解机器学习的过程,这样才有可能设计出真正满足需求的技术方案。在线需求。
了解线上和线下的区别
了解了一个数据系统的闭环之后,自然会出现下一个问题。这也是一个核心的系统级问题。在这个管道中,哪些部分在“线”上,哪些部分在“线”上。下”?
这里我们首先澄清一下“在线”的概念。“在线”通常是指对于交互性很强的互联网产品(包括电子商务、搜索引擎、社交媒体等),从用户来到某个页面,到我们为这个页面准备好所需的内容(如作为推荐产品或搜索结果),中间的响应时间对应的是“在线”,而这部分时间很短,往往只有几百毫秒。如何在这几百毫秒内执行复杂的操作,是非常讲究的。
“离线”的概念是相对于“在线”而言的。通常,无法在这数百毫秒内完成的操作,在某种程度上属于“离线”操作。
了解线上和线下的区别是初学者迈向工业级应用的另一个重要步骤。哪些计算可以上线,哪些可以下线,已经成为各种机器学习架构的核心区别。
初学者需要注意的另一个问题是线上和线下是相对概念。今天部分离线计算,明天可能会上线计算。因此,初学者逐渐学会掌握两者之间的转换是非常重要的。
这里我举一个简单的线上线下分割的例子。假设我们要构建一个系统来检测垃圾邮件。对于这样的系统,哪些部分在线,哪些部分离线?
乍一看,我们这里说的是一个比较容易的架构,但并不意味着实现这个架构的难度也小。在最简单的情况下,检测垃圾邮件需要一个二元分类器。如何训练这个分类器的参数是一个关键。
假设我们训练一个逻辑回归二元分类器。那么,逻辑回归的参数,即一组线性系数,应该在什么环境下得到呢?显然,训练逻辑回归肯定需要大量的训练数据。有一定数量的训练数据(大于几千个垃圾邮件和非垃圾邮件),在几百毫秒内训练逻辑回归的参数是不可能的。在这种思维方式下,训练逻辑回归必须离线计算。一旦做出此决定,就必须离线计算一系列模块。
此外,数据采集也必须离线,以保证训练数据能够传输到后续的流水线模块。还有特征的生成,至少是训练数据特征的生成,自然需要离线放置。
正如我们刚才提到的,训练逻辑回归本身需要离线。以及下线的决定(从某种意义上说,时间多一点或少一点都无所谓,总之满足不了上百毫秒的在线计算,需要下线),并且可以使训练的逻辑回归本身,使用更复杂的二阶算法可以更好地收敛参数。
您可以看到,由于一个决定,就产生了有关整个管道的一系列决定。这些决策反过来会影响模型算法的选择,例如相对耗时的更复杂的算法。
那么在这个框架下,什么是线上部分呢?首先,训练一个模型后,为了使用模型,我们必须将模型的参数存储在某个地方(可能是数据库或存储系统),在线系统可以立即获取这些参数。仅仅获取参数是不够的,还需要判断当前邮件。
这一步有一些问题。一种选择是在线部分获取模型参数,然后实时动态生成邮件的特征,实时计算分数,判断是否为垃圾邮件。整个过程的这三个步骤需要在几百毫秒内完成。
其实这里的第二步往往比较耗时,甚至有些特征是无法在线计算的。例如,可能有一个特性需要查询邮件的来源是否可靠,这可能需要数据库操作,这可能非常耗时(在数百毫秒的情况下)。因此,动态生成特征,除非特征非常简单,否则很可能无法完全在线完成。
我们可以对框架进行简单的修改。所有电子邮件首先发送到特征生成模块。这不是一个完全在线的环境。计算要求可能超过几百毫秒,但一般只有几秒,最多十几秒。生成所有特征后,这里也完成了对邮件的判断,最后保存了邮件是否为垃圾邮件的简单选项。在线系统中,即用户来到邮件系统界面,我们直接从保存的结果中读取一个标签,速度非常快。
如上所述,我们通过垃圾邮件检测系统的示例分析了在线和离线分割。现在让我们考虑一下。刚才描述的架构有什么问题吗?问题是在线结果是预计算的结果,而模型本身是预计算的。因此,当有大量数据爆发时(例如新一批垃圾邮件),架构可能无法快速响应并更新模型。可见,如何理解线上线下是一个需要慢慢琢磨的学习过程。
小*结
今天,我介绍了数据科学家和 AI 工程师需要掌握的关于系统基础的两个核心概念。让我们一起回顾一下要点:首先,现代数据流不是静态数据集,而是动态闭环管道。其次,了解哪些计算可以上线,哪些计算可以下线至关重要。
最后,我留给你一个思考问题。如果让你设计一个产品推荐系统,哪些部分应该离线放置,哪些部分应该在线放置?
欢迎您给我留言,与我讨论。
本文摘自洪亮杰在极客时光App上开设的付费栏目《AI技术内参》。欢迎扫描下方二维码,在极客时间给我留言与我讨论。
【AI技术内参专栏| 年度目录】