解决方案:本期聚焦 | 开源背景下数据新闻的开放数据应用与生产模式创新

优采云 发布时间: 2022-12-06 00:21

  解决方案:本期聚焦 | 开源背景下数据新闻的开放数据应用与生产模式创新

  核心观点

  题目|开源背景下数据新闻的开放数据应用与生产模式创新

  来源 | 《出版印刷》2022年第5期

  作者| 罗芳、陈志鹏

  作者单位|西安财经大学文学院

  土井 | 10.19619/j.issn.1007-1938.2022.00.065

  引用参考文献格式:

  罗芳,陈志鹏。开源背景下数据新闻的开放数据应用与生产模式创新[J]. 出版印刷, 2022(5): 17-24.

  摘要|文章分析了开源背景下开放数据在数据新闻中的应用现状,为数据新闻生产模式的创新提出了可行性建议。文章通过对数据新闻网站澎湃新闻《美书课堂》栏目中数据新闻作品数据来源的内容和案例分析,结合对机构媒体数据记者的深度采访,指出目前数据新闻的生产模型存在数据缺失和模糊、生产过程透明度和公开性不高、数据侵犯隐私等问题采集。建议多维度提升数据开放水平和数据可信度,逐步确立数据开放边界。和规范体系,提升众包模式下的开源技术应用能力和跨组织协作能力。

  关键词 |开源;数据新闻;开放数据;数据共享;生产模型;

  →查看HTML全文

  数据新闻是“一种利用计算机程序采集、分析和呈现事实材料和统计数据的定量报道方法,也指通过上述方法产生的新闻类别”[1],其显着特征以数据为驱动,对海量数据进行挖掘、过滤、分析,并以可视化的形式呈现。与传统新闻不同,数据是数据新闻整篇报道的出发点。数据的开放,数据采集、分析、处理*敏*感*词*的透明公开,将显着影响数据新闻行业的发展,而这与“开源”这一核心理念息息相关。开源理念的核心是技术和资源的开放共享和协同生产。在开源模式下,用户可以自由获取、复制、修改和再利用数据源,从而实现持续创新。政策连贯并逐步渗透到数据新闻的生产实践中,对数据新闻的数据开放共享产生了显着影响。

  目前,国内媒体的数据新闻栏目已初具规模。例如,澎湃新闻“美数课堂”栏目以“数字为骨架,设计为灵魂”为宗旨,依托政府公开数据、学术机构数据、自采数据。数据新闻作品以图表、视觉交互、视频、*敏*感*词*等形式不断推出,在行业内积累了一定的知名度和影响力。根据 Mirko Lorenz [2] 对数据新闻生产过程模型的描述,本研究重点从数据源、数据分析和数据三个维度探讨数据新闻对开放数据的应用和数据新闻生产模式的创新。介绍,以澎湃新闻“美书客”栏目为例,

  一、文献综述

  一、开源在数据新闻领域的应用

  在数据新闻研究领域,学者们在关注开源技术和开放数据实践的同时,更关注开源思想和文化的渗透。钱进[3]对数据新闻生产实践的影响进行了研究,指出开源工具不仅以软件产品的形式成为新闻实践中的技术基础设施,而且作为一种文化渗透到生产过程中, 影响数据新闻实践。扩张。从开源理念的角度,傅同乐[4]将数据新闻开源的概念定义为数据开源过程中应该遵循或坚持的理念。数据。王琼等[5]进一步指出,在开源理念的引领下,

  2. 数据新闻在开放数据中的应用

  目前,关于数据新闻在开放数据中应用的学术研究主要集中在开放数据的可访问性和可用性上。毕秋玲[6]指出,开放数据主要由政府机关、高校等科研机构和非政府组织提供,具有开放性、可用性、完整性和即时性等特点。但调查结果显示,在实际应用方面,目前国内开放数据市场仍处于探索阶段。正如丛鸿雁[7]所强调的,现有的开放数据量级较低,开源数据资源十分有限。在开放数据的可及性方面,政府部门和专业统计机构发布的数据有限且难以获取,而开放的数据通道还没有被相关从业者和公众所熟知,进而会导致数据利用率低和数据浪费等问题。在可用性方面,王鹏[8]指出应用中存在问题数据新闻,如数据缺失、数据虚假、处理技术欠缺、数据被利用等;张超[9]指出,基于互联网海量数据挖掘的数据新闻生产过程可能导致个人数据被滥用,如未经同意的个人数据采集、侵犯个人隐私、过度挖掘个人数据等. 王鹏[8]指出,数据新闻的应用存在数据缺失、数据虚假、处理技术欠缺、数据被利用等问题;张超[9]指出,基于互联网海量数据挖掘的数据新闻生产过程可能导致个人数据被滥用,如未经同意的个人数据采集、侵犯个人隐私、过度挖掘个人数据等. 王鹏[8]指出,数据新闻的应用存在数据缺失、数据虚假、处理技术欠缺、数据被利用等问题;张超[9]指出,基于互联网海量数据挖掘的数据新闻生产过程可能导致个人数据被滥用,如未经同意的个人数据采集、侵犯个人隐私、过度挖掘个人数据等.

  3. 数据新闻生产模式

  目前,学术界对数据新闻生产模型的研究较少。余淼[10]研究了数据新闻的生产过程、全球先进媒体编辑部的组织形式和数据新闻的实践模式。数据新闻重塑新闻生产流程和生产模式,展望其未来发展趋势。刘高英[11]研究了数据新闻生产模式的特点、问题和发展方向,指出数据新闻生产模式是指新闻内容不再依赖于记者对事实的描述,而是依靠挖掘和展示数据,数据变成新闻。内容主体是通过数据讲故事,最终呈现数据的新闻价值。

  二、开源背景下数据新闻的发展现状

  1、数据可访问性提升,数据共享机制初步形成

  2009年以来,兴起于西方国家的政府数据开放运动逐渐向全球扩展[12]。随着开放数据运动的发展,可访问的数据资源应运而生,为数据新闻的诞生提供了先决条件。US Public Data Open网站于2009年5月上线,这是全球首个可自由访问的开放式网络数据共享平台,为用户提供数据公开、检索、利用、用户交互等功能。随后,开放数据运动波及世界各国。英国、法国、加拿大、澳大利亚、新加坡、新西兰、挪威、爱尔兰、丹麦、秘鲁、日本、韩国、巴西、印度等国家陆续建立了政府开放数据平台,致力于推动政府开放数据运动的国际组织开放政府伙伴关系(OGP)的成员国数量也在不断增加。中国政府的数据开放政策也在稳步推进。截至2021年10月,我国拥有政务数据开放平台193个,其中省级平台(不含直辖市和港澳台地区)20个,城市平台(含直辖市)173个。),平台总数比2020年增长了30%以上。一些媒体机构也在全球开源平台GitHub上发布了他们的数据仓库和生产代码。其中,数据新闻作品本身也作为一种公共开放数据,供同行业的从业者使用。数据开放不仅提高了新闻行业的透明度,也促进了新闻行业数据的标准化和数据共享机制的形成。

  2、开源技术降低数据新闻制作门槛

  与传统媒体的新闻产品不同,数据新闻采用先进的计算机网络工程和图像处理技术,使新闻以视觉而非文字的方式呈现,从而产生新颖的视觉效果。数据可视化的技术要求。智能媒体时代的新闻人才培养虽然已经在转型过程中,但短时间内很难培养出精通编码、制图等技术的新媒体人才,而开源技术已经很大程度上解决了这个问题。知名的GitHub和国内CSDN网站社区上有很多程序员和爱好者提供了各种爬虫代码和情感分析代码,为数据新闻生产过程中的数据采集和数据分析带来很大的好处。方便。开源程序QGIS已经成为许多数据新闻作品构建图和可视化地图的主要GIS程序,具有轻量和方便的优点。

  3、协同众包成为普遍的生产模式

  在传统的新闻生产过程中,有组织的媒体机构和职业记者是生产主体,新闻生产呈现出明显的单向性和线性特征。在开源理念的影响下,以共享和协作为中心的新闻生产机制成为数据新闻生产的创新方向。数据新闻生产依托开源个体生产,拓展组织边界。在传统的依托媒体“自给自足”的生产模式基础上,增加了协同分工的“外包”和“众包”模式。传统的直线 传统的生产过程也被转变为*敏*感*词*的大众网络模式。面对数据量巨大的数据新闻,媒体可以采用跨组织协同制作,也可以将内部难以完成的工作外包给“分包商”,从而降低成本,提高效率。数据新闻团队甚至可以邀请用户参与数据新闻数据采集和新闻制作的*敏*感*词*,以补充自身资源。

  三、研究方法

  一、内容分析

  本研究旨在分析国内数据新闻网站对开放数据的应用,采用内容分析法对国内知名数据新闻栏目“美数客”进行定量研究,具体采用内容分析法的一般步骤:确立研究目标、确定研究人群和选择分析单元、设计分析维度体系(建立类别)、选择样本和定量分析材料、进行评价记录和分析推理[13]159。

  栏目是承载报道的重要平台。默认情况下,专门从事数据新闻报道的媒体也更加重视数据报道,应该按照数据报道的专业标准制作相应的新闻产品[14]111。相比于其他新闻网站中海量、分散的数据新闻作品,选择一个栏目进行研究可以集中更多的案例,研究也更有针对性。风起云涌的“美说”栏目自2015年开办以来,实践经验较为丰富,虽然类似于网易的“数读”(2012年创办),但财新网的“数位谈”(2013年创办)等国内相对于数据新闻专栏起步较晚,但发展较快,更能代表目前国内数据新闻的发展现状。因此,本文选择“美书客”栏目作为分析研究的对象。

  2、深度访谈法

  深度访谈是一种重要的定性研究方法。通过与受访者的直接交流,可以更直观、更深入地掌握内部数据。滴数是一家专注于数据新闻业务的机构媒体。成立于2015年,旗下“数据图文”栏目持续产出数据新闻作品。作为滴数旗下的综合数据服务平台,滴数聚()聚合优质海量数据,提供数据服务,让数据高效流动,从而实现数据价值最大化。关于开放数据的应用以及目前我国数据新闻团队遇到的问题,笔者和团队成员主要采访了滴书的两名工作人员,其中受访者S1是滴书的后台管理员,受访者S2是Dysproium Data的新闻编辑。面试时间为2021年11月5日,面试方式为微信在线电话面试。深度访谈的提纲问题如下。

  ①在生产数据新闻的过程中,获取数据的主要途径有哪些?

  

  ②哪种数据源使用频率更高?

  ③哪些topic在其对应领域的数据质量较好?具体有哪些方面?

  ④数据采集过程中,团队是否与外部合作?一般如何分工?

  ⑤数据采集中,如何保证这些数据的可信度?是否会使用多个数据源?这些数据会不会涉及用户隐私?

  ⑥数据分析过程中,使用了哪些数据分析工具?

  ⑦《Dysium数据采集》网站中的数据从何而来?工作人员在收录数据时是否存在偏见?

  ⑧ 自建镝数数据库的完善程度如何?数据更新周期是多久?

  ⑨您认为我国在整体数据开放过程中还存在哪些问题?开放数据会促进数据新闻的生产吗?

  4. 国内数据新闻网站数据源的量化研究

  1、样本选择

  由于澎湃“美书类”栏目下的数据新闻作品的数据源信息多标注在文中的图片上,难以使用爬虫采集数据采集,因此本研究采用人工采集获取方法2021年6月22日至2022年6月25日发表在“美书客”栏目中的数据新闻作品的数据来源标注和备注信息,不包括无法打开的链接,非数据新闻作品(如*敏*感*词*、短视频、连环画、冷知识科普等)、重复内容,共获得92个有效样本。

  2.类目构建及编码说明

  本研究引用了方杰等人提出的三个指标。[14]112在研究数据新闻的专业规范时对数据新闻中的数据来源进行了分析,即数据来源的数量、数据来源的描述、数据来源的隶属关系。其中,数据源的个数分为三种:无、一个、多个;数据来源描述是指新闻作品中对数据来源​​的描述程度,分为无、模糊、清晰三种。数据文件的链接可能只给出了一个大概的数据来源,读者无法获得具体数据来源的描述。明确表示读者可以通过链接或报告中的具体引用找到数据文件的说明;数据源组织从属于研究数据。具体来源引用了陈晓月[13]162在研究我国数据新闻开放数据应用时提出的数据源类别和编码标准,并在数据源类别中增加了“自采数据”。(见表一)

  表1 数据源类别及其内容说明

  3、统计分析

  (1) 数据来源数量

  表2列出了澎湃新闻“美书类”栏目中样本的数据来源数量。样本总数为92个,其中2个样本没有标注数据来源,占样本总数的2%,说明该栏目的数据新闻作品尚未规范标注来源数据的。标注单一数据源的样本数为26个,占样本总数的28%。这些单一的数据来源是政府公开数据和机构自采数据,说明数据新闻编辑对政府数据的信任度很高。在公共数据难以获取的情况下,挖掘数据成为首选。使用多数据源的数据新闻作品数量为64篇,占样本总数的70%。这些数据新闻作品表现出明显的复杂特征,比如《图解21条地方新政:最长一年育儿假、三孩产假延长半年》使用了国内省市政府的数据网站,世界科研组织、各类新闻媒体报道、相关学者的研究成果。来自不同隶属机构的数据为数据新闻提供了多维度的分析支撑,小编以笔记的形式简要说明了数据整合中如何选择数据。当然,在实际的实施过程中,不同数据如何选择和接受,如何整合,面临哪些冲突,无法从简单的笔记中推导出结论。数据来自国内省市政府网站、世界科研组织、各类新闻媒体报道、相关学者的研究成果。来自不同隶属机构的数据为数据新闻提供了多维度的分析支撑,小编以笔记的形式简要说明了数据整合中如何选择数据。当然,在实际的实施过程中,不同数据如何选择和接受,如何整合,面临哪些冲突,无法从简单的笔记中推导出结论。数据来自国内省市政府网站、世界科研组织、各类新闻媒体报道、相关学者的研究成果。来自不同隶属机构的数据为数据新闻提供了多维度的分析支撑,小编以笔记的形式简要说明了数据整合中如何选择数据。当然,在实际的实施过程中,不同数据如何选择和接受,如何整合,面临哪些冲突,无法从简单的笔记中推导出结论。并且小编以笔记的形式简单说明了数据集成中如何选择数据。当然,在实际的实施过程中,不同数据如何选择和接受,如何整合,面临哪些冲突,无法从简单的笔记中推导出结论。并且小编以笔记的形式简单说明了数据集成中如何选择数据。当然,在实际的实施过程中,不同数据如何选择和接受,如何整合,面临哪些冲突,无法从简单的笔记中推导出结论。

  表2 澎湃新闻“美书班”栏目样本数据源数

  (二)数据来源说明

  从数据来源的描述来看,除了2%的样本没有描述来源外,近50%的样本描述模糊(见表3),读者无法清楚地知道自己数据的来源,以及也难以验证其数据的真实性和准确性。对于软件来说,算法黑匣子是被广泛批评的焦点,而在数据新闻中,数据取代算法成为“黑匣子”。作为开源的数据新闻,它呼唤数据的公开透明,但从数据来源的描述上可以看出,目前数据新闻作品的制作还没有达到开源理念对数据透明度的要求。生产数据新闻。

  表3 澎湃新闻“美书班”栏目样本数据来源说明

  (三)数据来源机构隶属关系

  表4列出了澎湃新闻“美书班”栏目样本的数据来源机构。可以看出,大部分数据来自政府部门和国际组织。具体来说,这些数据大多来自国家统计局、国家卫健委、各级政府开放数据平台、欧美政府、联合国等。正如受访者S1在采访中所指出的,“日常数据新闻制作中用的比较多的数据(来源)来源是报表类,还有一种是来自国家统计局的,包括这种来自各个方面的公开数据。国家的部门。,这样的数据比较权威。” 二是相关公开报道,主要来自央视新闻、国内有新华社、中国日报,国外有BBC、卫报。三是学术机构,主要关注各类学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。和中国日报,以及国外的 BBC 和卫报。三是学术机构,主要关注各类学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。和中国日报,以及国外的 BBC 和卫报。三是学术机构,主要关注各类学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。以及国外的 BBC 和卫报。三是学术机构,主要关注各类学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。以及国外的 BBC 和卫报。三是学术机构,主要关注各类学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。主要收录各学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。主要收录各学术机构的研究报告和学者的研究成果。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。这些数据大部分是完全开放的数据,公开免费,支持跨行业利用和共享。一小部分数据是半开放数据,只有一部分是开放的,其余的优质数据需要付费才能获得。从表4可以看出,目前在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少. 独立采集数据和建立数据库还有很长的路要走。在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少。独立采集数据和建立数据库还有很长的路要走。在数据新闻的数据应用中,商业开放数据仍存在明显障碍,社会组织开放数据进展相对缓慢,非营利性数据共享的社会组织较少。独立采集数据和建立数据库还有很长的路要走。

  表4 澎湃新闻“美书类”栏目样本数据来源及隶属关系

  五、开源背景下数据新闻生产模式存在的问题及建议

  1.问题

  (1)数据缺失和数据模糊

  在分析澎湃新闻“美数客”栏目数据新闻案例时发现,很多新闻作品在笔记中提到了一些数据缺失和统计不完整的情况,这在很大程度上是受整体数据开放程度不高的影响。社会环境的影响。数据促进了数据新闻的发展,而数据开放程度低是数据新闻发展的主要障碍。因此,数据的开放与共享已成为数据新闻事业发展壮大的紧迫问题。正如受访者S1所指出的,“公开的数据越多,数据新闻的整体生态环境就越好,这意味着每个人都可以做,而不是只有你有一定的资源才能做。,这样一来,就会有越来越多的人参与进来。”

  此外,澎湃新闻“美书班”栏目数据新闻作品在引用相关论文、报告、报道时,有时标注数据来源,有时标注数据来源。认知上还存在不确定性和不一致性,这必然会导致数据新闻作品在数据应用上存在一定程度的歧义。

  (2)生产过程的透明度和公开性低

  笔者此前在分析2021 Sigma数据新闻大赛作品时发现,很多国际领先的新闻项目也是GitHub上的开源项目,可以被其他媒体复制使用。这些平台大多提供免费的开源项目,功能也比较成熟,降低了数据新闻可视化的难度,为新闻协同提供了技术支持。但就目前澎湃新闻“美数客”栏目数据新闻作品的分析结果来看,并未发现任何公开、可直接复制、可在行业间自由共享的数据新闻。此外,在之前对数据来源​​描述的分析中发现,近50%的样本对数据来源​​的描述较为模糊。

  (3)数据采集涉及公民隐私问题

  

  在接受机构媒体编辑采访时,受访者S2认为:“我们这里的数据不涉及用户隐私,我们一般使用的是公共数据,所以与个人相关的数据不多。” 但在澎湃新闻“美书课堂”栏目分析中发现,数据新闻机构采集独立与个人用户相关的信息存在模糊公私界限的问题,如比如在制作数据新闻作品《H5:当上海掌门人退休的时候》。过程中,澎湃新闻采集了2022年4月9日至14日某蔬菜团购团的聊天记录2969条,但并未在数据新闻工作中注明聊天记录是否已被采集。对话用户同意。智能媒体时代,数据无处不在,合法采集、合法使用个人信息已成为社会共识。但是,个人信息在数据新闻生产中的使用在数据获取的合法性和二次生产的规范性方面存在一定的问题,例如数据采集是否获得了数据拥有者的同意,数据处理过程中会歪曲原创个人信息、数据最终呈现方式是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。而合法采集和合法使用个人信息已经成为社会共识。但是,个人信息在数据新闻生产中的使用在数据获取的合法性和二次生产的规范性方面存在一定的问题,例如数据采集是否获得了数据拥有者的同意,数据处理过程中会歪曲原创个人信息、数据最终呈现方式是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。而合法采集和合法使用个人信息已经成为社会共识。但是,个人信息在数据新闻生产中的使用在数据获取的合法性和二次生产的规范性方面存在一定的问题,例如数据采集是否获得了数据拥有者的同意,数据处理过程中会歪曲原创个人信息、数据最终呈现方式是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。个人信息在数据新闻生产中的使用在数据获取的合法性和二次生产的规范性方面存在一定的问题,例如数据采集是否获得了数据所有者的同意,数据是否经过授权等。处理过程中是否会歪曲原创个人信息、数据的最终呈现方式是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。个人信息在数据新闻生产中的使用在数据获取的合法性和二次生产的规范性方面存在一定的问题,例如数据采集是否获得了数据所有者的同意,数据是否经过授权等。处理过程中是否会歪曲原创个人信息、数据的最终呈现方式是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。采集已征得数据拥有者的同意,数据处理过程是否会歪曲原创个人信息、数据最终呈现是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。采集已征得数据拥有者的同意,数据处理过程是否会歪曲原创个人信息、数据最终呈现是否会泄露个人隐私等问题尚未得到合理解决。而随着数据新闻的公开传播,个人信息的安全风险可能被无限放大,不同程度地给公众带来终生安全风险。

  2.建议

  (一)多维度提升数据公开水平和公信力

  目前,政府发布的数据还非常有限,商业开放数据仍然严重受阻,数据新闻的制作很难判断来自民间组织和互联网平台的数据可信度,因此对政府的依赖性很强开放数据。正如受访者S1所指出的,判断数据的可信度主要取决于两方面的信息。一是数据记者对数据来源​​组织的了解程度,比如组织的规模。一般认为,数据提供者越大,数据的可信度越高,二是数据记者根据数据提供者对数据来源​​的标注进行进一步的查询和判断。

  (2) 提升技术运用和跨组织协作能力

  数据新闻的发展呼唤新型媒体人才,对媒体人的技术能力提出了一定的要求。在数据新闻的*敏*感*词*中,受访者S1指出,在他们目前的日常工作中,他们常用的数据分析工具是Excel中的数据透视表,一些公共工具用于分词、词频、词性等方面。语义分析。在极少数情况下,会使用 Python,“但这个时候最好有一位具有数据分析技能的同事”。在分析澎湃新闻“美书课堂”栏目时,发现多篇新闻作品使用了SNLP自然语言处理技术应用,并在注释中注明了该应用的开放代码。

  同时,面对难以获取和处理的数据,跨组织协作和众包仍然是最好的解决方案。在采访中,受访者S2认为,“目前大多数新闻机构都没有固定的数据库,数据新闻所需的数据还没有达到丰富的程度”。为此,公司整合外部专业资源,合理利用外部数据,公司内部人员承担数据分析和可视化工作,实现数据新闻的高效生产。

  (三)建立数据开放的边界和规范体系

  2015年,国务院办公厅在《促进大数据发展行动纲要》中明确指出,要“大力推进政府部门数据共享”,“稳步推进公共数据资源开放”。 ”[15],并以此作为重点推进工作。这就需要政府一方面推进数据资源整合,建设一站式数据开放和管理平台,加快数据归集,整合和管理分散、孤立、杂乱的数据,不断提高量级和更新频率。数据,深度挖掘数据的政治价值、商业价值和民用价值。另一方面,开放数据的使用既是技术问题,也是法律问题。要从立法层面明确数据开放共享边界,细化管理规定,加大数据开放监管力度。特别是面对互联网上产生的大量公共数据和个人隐私数据,合理选择数据和开放数据,进一步规范和细化开放范围、开放权限、开放流程、二次生产和开放等。其他问题。只有这样,才能更好地满足行业和公众的数据开放需求,兼顾数据开放和隐私保护,有效促进整个国家的数据开放,提高政府数据管理水平和智能化水平。的社会治理。细化管理制度,加大数据开放监管力度。特别是面对互联网上产生的大量公共数据和个人隐私数据,合理选择数据和开放数据,进一步规范和细化开放范围、开放权限、开放流程、二次生产和开放等。其他问题。只有这样,才能更好地满足行业和公众的数据开放需求,兼顾数据开放和隐私保护,有效促进整个国家的数据开放,提高政府数据管理水平和智能化水平。的社会治理。细化管理制度,加大数据开放监管力度。特别是面对互联网上产生的大量公共数据和个人隐私数据,合理选择数据和开放数据,进一步规范和细化开放范围、开放权限、开放流程、二次生产和开放等。其他问题。只有这样,才能更好地满足行业和公众的数据开放需求,兼顾数据开放和隐私保护,有效促进整个国家的数据开放,提高政府数据管理水平和智能化水平。的社会治理。更要合理选择数据和开放数据,进一步规范细化开放范围、开放权限、开放流程、二次生产等问题。只有这样,才能更好地满足行业和公众的数据开放需求,兼顾数据开放和隐私保护,有效促进整个国家的数据开放,提高政府数据管理水平和智能化水平。的社会治理。更要合理选择数据和开放数据,进一步规范细化开放范围、开放权限、开放流程、二次生产等问题。只有这样,才能更好地满足行业和公众的数据开放需求,兼顾数据开放和隐私保护,有效促进整个国家的数据开放,提高政府数据管理水平和智能化水平。的社会治理。

  六,结论

  开源正在作为一种工具,甚至是一种思想文化融入到数据新闻的发展过程中,推动着数据开放和数据新闻生产模式的创新。但根据笔者目前的研究,目前的数据新闻生产模式存在较为明显的数据缺失和数据模糊问题,生产过程的透明度和公开性较低,数据采集过程中的隐私侵权问题很重要。呼吁社会和行业从多个维度加大数据开放程度,建立标准化的数据采集标准,为数据新闻创作团队提出建议'

  由于数据新闻主创团队对数据安全的考虑等多方面因素,本文中的访谈和实地观察在样本数量上有所欠缺。此外,部分媒体的数据新闻专栏作品时效性有限,作者难以获取较长时间跨度的数据新闻作品,数据丰富性存在不足。未来,我们将尝试深入数据新闻编辑部,以进一步了解开源背景下数据新闻的发展现状,为数据新闻生产模式的创新提供参考。

  致谢:感谢文宇涵对本研究访谈数据的贡献。

  参考

  向上滑动阅读

  [1]方杰.数据新闻导论:运作概念与案例分析(第二版)[M].北京:中国人民大学出版社,2019:3

  [2] LORENZ M.数据驱动新闻的现状与展望[C]。荷兰:数据驱动新闻阿姆斯特丹圆桌会议,2010 年。

  [3]钱进.作为开源的数据新闻[J]. 新闻大学, 2016(2): 6-12, 19, 146.

  [4]傅同乐.作为概念的数据新闻开源[J].青年记者,2018(18):24-25。

  [5] 王琼, 徐媛.中国数据新闻发展报道[M].北京:社会科学文献出版社,2020:88-89

  [6] 毕秋玲.开放数据在数据新闻中的应用[J].湖北社会科学,2016(7):190-194.

  [7]丛鸿雁.财新“数字论”数据新闻的特色创新[J]. 媒体, 2021(14): 56-57, 59.

  [8] 王鹏.数据新闻中数据应用的问题与对策[J].编友, 2017(12): 68-73.

  [9] 张超.数据新闻制作中个人数据的滥用与逃逸分析[J]. 编友, 2018(8): 66-70.

  [10] 于淼.数据新闻实践:流程再造与模式创新[J].编友, 2015(9): 69-72.

  [11] 刘高英.数据新闻生产模式与发展方向研究[J]. 传媒, 2016(12): 86-89.

  [12] 赵科, 雪雁.西方国家开放政府数据运动研究[J].当代世界与社会主义,2020(3):191-197。

  [13] 陈晓月.我国数据新闻在开放数据中的应用:问题、路径与建议——对网易“嘟嘟”的量化研究[J]. 新媒体与社会,2017(4):153-171。

  [14] 方杰,高璐.数据新闻:一个急需建立专业规范的领域——基于国内五个数据新闻专栏的量化研究[J]. 国际新闻, 2015, 37 (12): 105-124.

  [15] 国务院.关于印发推进大数据发展行动计划的通知[EB/OL]。(2015-8-31)[2022-09-08]。

  题目 : 开源背景下数据新闻的开放数据应用与生产模式创新

  作 者:罗芳、陈志鹏

  作者单位:西安财经大学文学院

  摘要:本文分析了开源背景下开放数据在数据新闻领域的应用现状,试图为数据新闻生产模式创新提出可行性建议。

  关键词:开源;数据新闻;开放数据;数据共享;生产模型;澎湃新闻“美书客”专栏

  技术分享:SEO站群建站及优化策略

  SEO站群网站建设与优化策略

  本文将从我自己站群操作的角度,谈谈站群优化中需要注意的一些事项和一些启示。希望对您有所帮助!

  站群发展历程:

  站群这个词在10到12年风靡一时,就像当年的网页点击器一样,可以快速提升排名,批量注入关键词,收获各种关键词 recommendations 来单的流量也有保障,投入不需要太多的资源和人力,所以在当时受到了各个公司的青睐。然后随着12年的寒流,13年的时间里,站群的建设和优化已经很少有公司或者个人去做了。一方面,百度的打击让成本投入成倍增加。其次,百度自身产品排名的提升,让站群的制作难度越来越大。太讨人喜欢了,所以到现在,站群的状态都是实实在在的鸡肋,弃了可惜了'

  网站建设

  服务器:虚拟机服务器的IP段,一定不能选择相同的IP段,对后期网站维护网站搬迁影响很大,百度判断站群。所以在购买虚拟空间的时候,更适合我们站群需要从不同的服务商购买。

  源码:做过站群的人都知道,几乎所有的站群都使用开源代码,对节约成本有很大的作用。一般可以直接使用。,比如目前国内比较实用的一些开源程序,PHPcms、ASPcms、DEDEcms和wordpress,甚至ZBLOG等等,都可以作为我们的开源源程序,而我当时搭建的站群的源代码是PHPWIND。当然,这个开源代码现在也有很多用户群在使用。这个开源代码有几个主要优点。修改方面,不管是模块还是栏目,完全是傻瓜式的建站方式,只要会玩qq空间的人,运营商PHPwind肯定问题不大,而且phpwind的模块对以后的优化也很有帮助,这个优化部分再说一遍。您可以有选择地使用一些开源程序。

  

  排名优化

  TDK:也就是title、关键词和description,可以落地不同类型的关键词、关键词展开,可以百度各种关键词展开方式,大部分都是基于关于产品的话。关键词密度一样,主要是调整模板关键词,要是开发开发相关的软件能批量排版就好了。

  内容:原则上原创可以原创尽量处理,不能原创伪原创处理。由于站群涉及的站点很多,所以大部分原创的方法也很难实现。这时候网站模板就可以给我们带来很大的方便。由于我们在页面左侧或右侧添加了相应的豆腐块,当百度抓取我们的网站时,索引我们的豆腐块和内容页,使用指纹比对技术会中和很多非原创内容。对于伪原创方法,简单来说就是优采云采集,自己写软件或者下载伪原创软件,大部分都是同义词,导入即可。

  Sprocket:这是大家做站群最需要注意的。链轮的功能可以直接让百度追踪到我们所有网站的相关性。因为 站群 是一个大忌。

  因此,我们要做的就是将每个站群网站作为一个单站使用,这样消耗的资源和人力是比较大的,但是效果也是喜人的。

  [SEO站群网站建设和优化策略]相关文章:

  SEO站群优化技巧06-07

  SEO优化策略08-18

  

  SEO网站页面优化攻略11-12

  站外SEO策略分析08-18

  电商网站SEO优化攻略08-21

  浅谈SEO优化的逆向策略05-15

  电商网站SEO优化攻略06-07

  2017网站SEO优化方法05-27

  2017网站seo优化注意事项08-21

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线