俄媒:这场冲突系列文献记录网络世界里的点滴记忆

优采云 发布时间: 2021-08-19 02:19

  

俄媒:这场冲突系列文献记录网络世界里的点滴记忆

  <IMG alt=互联网真能帮人类历史存档吗? src="http://img1.gtimg.com/tech/pics/hv1/117/251/1780/115808622.jpg">

  编者按:《未来》是腾讯科技周末特推出的栏目,聚焦科技领域的前沿和前沿话题。本期话题来自最新一期的《纽约客》杂志。本文介绍了一个名为“互联网档案馆”的非营利组织,该组织旨在记录网络世界中的记忆,以保存人类共同的历史。但要实现这一宏伟愿景,我们必须克服各种困难和挑战。

  格林威治标准时间 2014 年 7 月 17 日上午 10:31,MH17 航班从荷兰阿姆斯特丹起飞。按照原计划,它应该在12小时内降落在马来西亚吉隆坡。但仅仅三个多小时后,这架波音 777 在乌克兰顿涅茨克郊区坠毁。机上298人全部遇难。飞机最后一次发送*敏*感*词*信号是下午1:20。

  当天下午 2 点 50 分,乌克兰亲俄武装*敏*感*词* Igor Girkin 在*敏*感*词*社交网站VKontakte 发帖:“我们刚刚击落了一架飞机,一架 An-26”,帖子还附有一个视频链接。从视频中可以看到飞机的残骸,看起来很像波音777。

  就在飞机失事前两周,斯坦福大学胡佛研究所*敏*感*词*和欧亚文学负责人 Anatol Shmelev 向加州非营利组织“互联网档案馆”(Internet Archive)报告。 Archive) 提交了一份网站 和来自乌克兰和*敏*感*词*的博客列表,希望将收录 纳入“乌克兰冲突”系列的档案中。全世界大约有 1000 名像舒梅列夫这样的图书管理员和档案管理员,他们帮助“互联网档案馆”找到各种可能的资料和文件,并将它们存储在旧金山的“Wayback Machine”中。 .

  吉尔金也被称为斯特雷尔科夫(Strelkov),他当时的VKontakte页面也是收录进舒梅列夫的榜单。 “斯特列尔科夫是斯拉维扬斯克的战场指挥官,也是这场冲突中最重要的人物之一。”舒梅列夫于 7 月 1 日向“互联网档案馆”发送了一封电子邮件,邮件称他的页面“应该每天记录两次。”

  7 月 17 日格林威治标准时间下午 3:22,Strelkov 在 VKontakte 上发布的击落飞机的帖子截图被 Time Machine 保存。 2小时22分钟后,《基督教科学箴言报》的欧洲编辑亚瑟·布莱特在推特上发布了截图,并发文称:“截图显示,好顿涅茨克。勇士领袖斯特雷尔科夫声称击落了一架飞机,但它似乎是 MH17。”那时,Strelkov 的 VKontakte 页面已经修改:飞机被击落的声明也已修改。删除。只有“时间机器”保留了证据。

  网页的平均生命周期约为 100 天。 Strelkov 的帖子的生命周期只有两个小时。在某些人看来,网上保存的东西似乎是永恒的。这有时是一件好事,但它也经常导致一些不好的结果:令人尴尬的照片和超出他们能力范围的博客文章。没有人相信“互联网上的事情就是事实”,但很多人认为,如果有任何新闻发布在互联网上,它将永远留在互联网上。但实际情况并非如此。

  2006年,英国首相戴维·卡梅伦(David Cameron)在一次演讲中表示,谷歌(Google)推动了整个世界的民主进程,因为它“让更多人获得更多信息”,让任何人都享有权利这可能只有垄断大国才能享受。七年后,英国保守党在其网站上删除了长达10年的演讲内容,包括卡梅伦的演讲。去年,BuzzFeed 从 4000 位作者中删除了之前的文章,原因很明显:随着时间的推移,内容变得越来越傻。社交媒体、公共档案、垃圾邮件——最终,一切都会消失。

  网页的消失可能不是故意删除。企业托管的网站往往随着这家企业的消亡而消失。当MySpace、GeoCities和Friendster都变脸或被迫出售时,数以百万计的账户一个接一个地被删除。 (可能有公司提醒过用户,但Archive Team创始人Jason Scott表示,很多通知只是敷衍,公司会向不再可用的邮箱发送邮件。) Facebook诞生至今才10年,不能永远活着。 Twitter 采用了一种相对罕见的方法,将所有推文保存在国会图书馆中。

  2010 年,美国作家安迪·博罗维茨 (Andy Borowitz) 在宣布这一声明后发推文:“国会图书馆收录 拥有整个 Twitter 档案——它将更名为‘废话博物馆’。”此后不久,博罗维茨关闭了他的推特账户。有一天,你会在国会图书馆找到你之前发表的推文,但短期内很难实现:“推特档案”尚未对研究人员开放。同时,如果你在网上点击一条指向Borovets关于“废话博物馆”的推文,你会看到这个页面提示:“对不起,这个页面不存在!”

  破坏网络时代文明的象征

  互联网似乎永远活在当下。它是空灵的、短暂的、多变的,而且总是显得不可靠。有时,当您尝试访问网页时,您只能看到“找不到页面”的消息。这就是所谓的“断链”。看到这样的信息当然不爽,但比起其他情况稍微好一点。更多的时候,你会看到更新后的网页,感觉就像原来的页面被完全覆盖了一样。 (在计算机中,覆盖意味着在存储新数据的同时破坏旧数据。这是计算机存储资源稀缺时代的产物。)

  或者,页面已转移,新内容放置在原创位置。这就是所谓的“内容漂移”,它比错误信息危害更大,因为您不可能知道您正在查看的内容不是您真正要查找的内容:覆盖、删除或转移原创内容不可见。

  对于*敏*感*词*来说,无效链接或内容漂移统称为“无效引用”,会造成很大的损害。在提交证据时,法律学者、*敏*感*词*和法官经常在脚注中引用网页。他们希望网页保持原样,以便作为他们自己的证据——就像纸质证据一样。但是,2013 年对法律和政策相关出版物的调查发现,六年前出版的出版物中引用的 URL 中约有 50% 是无效的。根据 2014 年哈佛法学院的一项调查,“哈佛法律评论和其他期刊中超过 70% 的链接不再指向最初引用的信息,而这个比例在美国最高*敏*感*词*看来已经达到了 50%。 "

  这些网页的覆盖、漂移和失效也会给工程师、科学家和医生带来麻烦。上个月,洛斯阿拉莫斯国家图书馆的一个数字图书馆研究小组发表报告称,他们对 1997 年至 2012 年间发表在科学、技术和医学期刊上的 350 万篇学术文章 的研究表明,注释中约有 1/5链接存在“引用失效”的问题。就像绝望地站在流沙中。

  作为人类文明史的重要标志,脚注的发明和传播历时数百年。但短短几年时间,这种形态几乎被摧毁。脚注就像在告诉读者:“我从这里学到的,这是我的信息来源。”但是网页链接形式的脚注似乎改变了语言:“我在这里知道。这就是我。曾经是信息来源。但它可能不再存在。”

  事实上,不管你是否经常使用脚注,几乎每个人都会经常使用链接。引用网页已经变得司空见惯。很多人会在早餐前引用三四次,午餐前再引用五次。但是到了吃饭的时候,这些链接就消失了,我该怎么办?

  Strelkov 发帖被收录进“时间机”后的第二天,美国驻联合国大使萨曼莎·鲍尔(Smantha Power)在纽约向联合国安理会表示,乌克兰分裂分子领袖“炫耀”在社交网络上他击落了一架飞机,但这些信息后来被删除了。”在旧金山,“时光机”的负责人在“互联网档案馆”脸书页面上发文称,“这就是我们存在的意义。”

  访问“互联网档案馆”

  Internet Archive 的 URL 是,但还有另一种访问方式:坐飞机到旧金山,然后坐*敏*感*词*到 Presidio。您需要穿过一片松树和柏林,那里的场景让人想起用沾满泥土的蜡笔绘制的图像。在芬斯顿大道 300 号,您会看到一座希腊复兴神庙。上石阶,敲一下铜门,就进去了。太显眼了,不容错过:外墙漆成圣白色,门前立着8根科林斯柱和6个大理石骨灰盒。

  “我们买这个地方是因为它和我们的标志很像。”布鲁斯特·卡勒 (Brewster Kahle) 看到我时说,他不是在开玩笑。卡利是“互联网档案馆”的创始人,“时光机”的发明者。互联网档案馆的标志是一座白色的希腊神庙。 1996年卡利在阁楼上创立“互联网档案馆”时,他向所有同事赠送了一本名为《消失的图书馆》的书,书中讲述了亚历山大图书馆被烧毁的故事。通过。

  “我的理想是创建第二个亚历山大图书馆。”他对我说。 (他对希腊文化的钦佩还不止于此。他甚至将“互联网档案馆”的一部分备​​份到了埃及的亚历山大。)Kali 的计划是超越当年的亚历山大图书馆。 “互联网档案馆”的座右铭是:“普世所有知识”。古老的亚历山大图书馆只对有知识的人开放,而“互联网档案馆”则允许所有人参观。 2009 年,当基督教科学学校第四教堂决定出售这座建筑时,卡利来到芬斯顿大道进行实地考察。他当时惊呼:“那是我们的标志!”

  他珍视一段历史:那个教堂的根基早在 1923 年就奠定了——在那年之前,所有在美国出版的作品都不再受美国版权法的保护。似乎是命中注定的安排,让这样一座版权元年建造的神殿出现在了卡莉面前。每当他兴奋的时候,他走路的时候就会像个孩子一样跳起来——虽然幅度很小。他指着神庙对我说:“这是希腊风格。”

  卡利四肢修长,精神饱满,热心公益。他穿着灰色卷发,戴着金丝眼镜,亚麻裤和条纹衬衫,就像狄更斯所描述的米考伯先生——如果米考伯先生曾经乘坐时光机离开狄更斯的伦敦,并于 1955 年来到太平洋地区,并假装是美国游客。不过,卡利 1960 年出生在新泽西州,小时候看过卡通片《洛基与布尔温克尔秀》,里面有一段叫“皮博迪不可能的历史”,“时光机”这个名字是来源。

  皮博迪是一只比格犬。他毕业于哈佛大学并获得诺贝尔奖。它开发了一种名为 WABAC(发音为故意模仿第一台商用计算机 UNIVAC)的机器,他曾经带着一个名叫谢尔曼的男孩进行时间冒险。 “只要设置好,启动机器,打开门,我们随时可以走。”皮博迪说。

  回顾网络协议的发展历程

  Kali 长大的时候,互联网早期的一些创始人正在思考图书馆的问题。 1961 年,技术公司 BBN 的科学家 J. C. R. Licklider 开始了为期两年的研究,希望探索图书馆的未来。该研究由福特基金会资助,并得到麻省理工学院教授 Marvin Minsky 等研究人员的帮助。

  在 Licklyde 看来,书籍适合展示信息,但不适用于存储、组织和检索信息。 “我们应该准备放弃实体书。”他甚至认为不应继续将印刷材料用于长期存储信息。这个项目的目的是想象图书馆在2000年会是什么样子。按照李克莱德的设想,图书馆将用电脑代替书籍,形成一个网络,连接各个学科的丰富知识。

  1963 年,Licklyde 成为美国国防部高级研究计划局 (DARPA) 的主任。在他上任的第一年,他在备忘录中称他的同事为“银河计算机网络的成员”,并提议将 DARPA 计算机连接到互联网。这激发了后来从麻省理工学院林肯实验室来到 DARPA 的电气工程师 Lawrence Roberts 的想象力。 (BBN 和林肯实验室均由 Licklyde 创立。)

  在福特基金会的资助下,Licklyde 撰写了一份名为“未来图书馆”的报告,该报告于 1965 年出版。那时,他所设想的网络已经开始构建,“超文本”一词已经传播开来。到1969年,依靠威尔士科学家唐纳德戴维斯开发的“数据包转换”数据传输技术,DARPA建立了一个名为“ARPANET”的计算机网络。 1970年代中期,来自美国各地的研究人员共同开发了一个“网络中的网络”,一个互联网网络,后来成为“互联网”或“互联网”。

  Kali 于 1978 年考入麻省理工学院。他和明斯基一起学习计算机科学和工程。 1982年毕业后,他就职并创办了一些公司,后来都以高价出售。 1980 年代后期,他在 Thinking Machines 工作并开发了广域信息服务器 (WAIS),这是一种 Internet 搜索、导航和发布协议。 WAIS 的功能之一是时间线,它通过版本控制提供归档服务。 (维基百科有版本控制功能。在任何页面,您都可以点击“查看历史”标签来了解该页面的上一版本。)

  WAIS 诞生于万维网之前,但后来被万维网超越。 1989 年,日内瓦 CERN 的计算机科学家 Tim Berners-Lee 提出了 HTTP 协议,通过万维网链接不同的网页。 Berners-Lee 在他的协议中也考虑了时间线概念。一直没有开发这个功能的原因之一是人们更喜欢最新的信息,对过时的信息有偏见。但主要原因是强调易用性。 “我还太年轻,万维网才刚刚诞生。” Berners-Lee 告诉我,“我希望促进它的发展。保存不是首要任务。但我们现在已经老了。”

  其他参与互联网基础设施建设的科学家也年龄越来越大,他们的担忧也与日俱增。 1970 年代从事 Arpanet 开发,目前担任 Google 首席互联网布道者的 Vint Cerf 已经开始讨论“数字牛皮纸”的必要性,希望能够实现长期存储。 “我担心的是,21 世纪将成为一个信息黑洞。”瑟夫通过电子邮件告诉我。但是 Kali 一直很担心这个问题。

  “我非常感谢蒂姆·伯纳斯-李的成就,”卡利说,“但它使协议变得过于简单。”美国的第一个网页是 1991 年底在斯坦福线性加速中心 (SLAC)。 Berners-Lee 协议以其实用简洁的设计迅速传播开来。它首先在高校中使用,然后逐渐扩展到公共领域。 SLAC 在 1994 年的网页上解释说:“这个带下划线的文本是一个超文本链接。” 1991年,互联网解除了对商业流量的禁令。随后,网络浏览器和电子商务应运而生:Netscape 和亚马逊都成立于 1994 年。今天大多数人所知的 Internet(基于万维网的商业化网络)始于 1990 年代中期。然而,当生命开始的时候,也是死亡的帷幕开始的时候。

  将万维网压缩到容器中

  然而,“互联网档案馆”已经开始采集互联网上的各种数据。 “时光机”是一个万维网档案馆,负责采集各种旧网页。虽然还有其他类似的项目,但在规模上远不如“时光机”。几乎可以说,如果有任何信息没有被“时光机”收录,这个信息就相当于从来没有存在过。 “时光机”是一个机器人程序,可以自动抓取互联网上的信息,并每两个月复制一次它找到的所有网页——但确切的频率也会有所不同。 (它于1998年11月首次抓取首页,此后已抓取近7000次。最近一次抓取频率约为每天6次。)

  “互联网档案馆”还存储由图书馆员和专家(如舒梅列夫)针对特定主题选择的网页。通过一个叫做 Archive It(网站)的服务,他们都可以提交相关的网页。个人和组织也可以在其上创建自己的文件。 (里面的所有内容都会自动复制到“时光机”中。)当有人想要保存页面时,只需访问/web,输入相应的URL,然后单击“立即保存页面”即可完成工作。 (实际上,在MH17航班被击落的那天,Strelkov VNontakte页面上的12张截图中的大部分都是这样存储在“时间机器”中的:机器人程序当天抓拍了7张截图,其余的都是手动提交的.)

  几年前,我在一次研讨会上遇到了 Cali,探讨材料与数字档案之间的关系。当我看到他时,我立刻被他告诉我的故事震惊了:他曾经把整个万维网放在一个容器里。他想知道容器是否适合万维网。那么,万维网有多大?尺寸是20×8×8英尺(1英尺=0.3m)——至少他测量的那天有那么大。多重? 2.6万磅(大约1.1810,000公斤)。他认为这意味着什么,他认为人们应该知道这些事情。

  Kali 将万维网放在一个容器中,但大多数人以字节为单位来衡量数据——这个文章 大约是 200 千字节 (KB),而一本书大约是 100 兆字节。节 (MB)。 1MB是100万字节,1GB是10亿字节,1TB是100万MB,1PB是100万GB。在“互联网档案馆”的大厅里,你可以看到一张贴纸,上面写着“10,000,000,000,000,000 字节已被存档”。转换为 10PB。这实际上已经过时了,因为这个数字是从2012年开始的。从那以后,数据量翻了一番。

  “时光机”已归档超过 430 亿个网页。但是整个万维网都是全球性的。除了“互联网档案馆”和少数新兴公司和越来越多的大学建立的在线图书馆外,大多数在线档案馆都由各国图书馆运营。主要采集本国域名的内容。 (例如瑞典国家图书馆的在线档案收录所有以“.se”结尾的网页。)国会图书馆的档案有90亿页,大英图书馆有60亿页。

  与大多数国家图书馆的馆藏类似,这些馆藏也或多或少依赖于“时光机”;他们中的大多数甚至使用了“互联网档案馆”的开源代码Heritrix。大英图书馆和法国国家图书馆使用“互联网档案馆”捕获的 .uk 和 .fr 域数据填充各自档案中的早期内容。美国国会图书馆实际上没有自己的在线档案。他们将这项业务承包给“互联网档案馆”。

  位于芬斯顿大道 300 号的寺庙占地约 20,000 平方英尺(1858 平方米)。 “互联网档案馆”大楼几乎每天下午都对外开放,毕竟是图书馆。 “互联网档案馆”除了是“时光机”的所在地,也是一个数字图书馆,里面存放着大量的数字图书、电影、电视和广播节目、音乐等内容。由于版权问题,“互联网档案馆”收录的内容并未全部放到互联网上。

  大堂设有扫描台和视听室。里面有两张扶手椅、一张咖啡桌、一对书架、两台 iPad 和两套耳机。 “你可以听到这里的一切。”卡莉说。 “你不能把我们所有的音乐都放到网上,但我们可以把所有的东西都放在这里。”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线