网页视频抓取软件排行(网页时光机的各种考古相关功能及使用方法而编写 )
优采云 发布时间: 2022-02-24 14:21网页视频抓取软件排行(网页时光机的各种考古相关功能及使用方法而编写
)
简短的前言
作为全球最大的网页“历史博物馆”,截至5月底,网页时光机已经缓存了至少4万亿页不同时间的各种网页。笔者自2017年底开始接触B站考古以来,一直将网页时光机视为极其重要且可信的考古工具。
上次笔者在专栏中提到了网页时光机的使用方法(cv423670) 到现在已经两年多了,从那以后网页时光机也经历了一些修改,还有是一些''当时的教程。''现在有点落后,已经失去了时效性。写这个系列的专栏是为了介绍最新版网络时光机的各种考古相关功能和使用方法。有兴趣并需要使用它会尽其所能。
网络时间机器标志
/// 正文前友情提示:访问这个网站需要网络工具。///
1.1 一些笔记
时光机最基本的工作机制,用通俗的语言描述,就是将目标页面的代码复制到时光机自己搭建的服务器上,以保存的时间作为后续浏览和搜索的标记。由于时光机直接抓取和复制网页数据实现保存,因此时光机的数据在考古学上具有很高的可信度。机器中存储的页面数据有待验证;另外,Time Machine 将爬取的数据存储在自己的服务器上,因此 Time Machine 保存的数据的生存不会受到原 网站 服务器的影响。受数据生存状态的影响,数据可以保存很长时间(但是由于Time Machine保存的数据量迅速增加,
在正式使用时光机之前,对于时光机有一些基本的注意事项。在考古过程中,常见的预防措施至少包括以下(尚未完成):
1.对于单个 URL,Time Machine 可以在不同时间多次保存页面。每次抓拍和保存都会生成一个对应的16位时间码(保存记录时的年、月、日、时、分、秒),同一个URL的不同保存记录相互独立。
2. 现在假设有两个网页链接A和B,并且A的网页中收录一个可以直接跳转到链接B的超链接。当你在时间机器中查看某个时间链接A保存的页面时,如果在A的时光机缓存页面中直接点击跳转链接B,时光机会帮你自动跳转到链接B的时光机缓存页面,而不是直接打开链接B本身。并且,此时,新跳转的链接B的保存页面是链接B与跳转前链接A的缓存时间点最近的最后保存页面。简单来说,Time Machine中的链接跳转默认是在Time Machine保存两个链接的页面之间。
3.无论时间机器对网页的其他元素有多完善,时间机器一般都不会保存网页中的视频。
1.2单搜索功能
Time Machine 的网址是。Time Machine 提供了两种搜索方式。一种是根据网页的链接URL直接搜索和回溯,另一种是像搜索引擎一样使用页面关键词进行间接搜索和回溯。对于实际的考古,99%以上的情况下,我们都是依靠url进行直接搜索和回溯,而关键词搜索在考古应用中基本不用(我自己没用过,这里提一下. 只是为了让专栏的介绍更完整),所以本系列的专栏在讲搜索相关的使用时,只讲基于网页链接的URL的搜索回溯。
在浏览器中输入时光机的网址,我们可以看到时光机的首页界面如下:
在界面的上半部分,网页上时光机红黑LOGO的右侧,是它的搜索框。
搜索栏
在框中输入要回溯的网址,回车,即可在网页上搜索时光机的缓存记录。我们以2010年更名时的B站主页(bilibili.us)为例进行演示:
上半部分
下半场
上面两张图是搜索结果的截图。我把它分成两部分展示。可以看到,进入 bilibili.us 后,页面会以年份选择器和日期选择器的形式向我们展示 URL bilibili.us 的所有时间机器保存的记录。使用年份选择器在年份之间切换,并在下面的日历中选择当前年份的目标日期以进行后续访问。年份选择器上方的英文句子表示,从 2010 年 1 月 24 日到 2020 年 4 月 15 日,bilibili.us 已被保存 357 次。
在下面的日历中,您可以看到一些日期被包裹在不同颜色和大小的圆圈中。圈出的日期表示网页时光机当天有该网址链接的记录,反之亦然。
圆圈越大,当天保存 URL 的次数越多。例如:
节省 1 次
节省了 3 次
节省了 6 次
而不同的圆圈颜色代表不同的保存状态。一共有4种颜色,分别是蓝色、绿色、橙色和红色。蓝色表示保存的记录可以正常使用,绿色表示对应保存的记录有另一个链接重定向,橙色表示链接有问题(客户端错误),红色表示服务器有问题(服务器错误)。在实际考古应用中,看到的蓝圈还是占了很大一部分,其次是极少数的绿圈;而橙色和红色的圆圈基本上是看不见的,当然,如果它们被看到,就意味着这种保存。该记录基本上无法使用。
选择我们要访问已保存记录的特定日期后,将鼠标悬停在相应的日期上。此时,日期旁边会显示时间机器保存的该 URL 的记录(如上例中的精确小时、分钟和秒)。点击详细保存时间即可访问。(一两年前时光机也可以直接点击日期访问,默认打开当天最早的存档页面)
现在我们打开bilibili.us最早的缓存是2010年1月24日,如下图:
从浏览器中很容易看出这个存档页面的时间机器网址是:
210 //
作者在这里做了两个颜色标注。红色标注的16位数字是当时缓存的时间码(对应上一篇),时间机器爬取网页的对应时间(时间机器所有时间默认都是GMT时间,如果换算为北京时间,需加8小时),2010年1月24日9时1分10秒;后面的绿色部分是已保存网站的 URL。那么,这个完整链接的含义可以近似表示为:网页时间机器在2010年1月24日9点1分10分捕捉到的页面。
作为一项基本功能,在网络时光机中搜索和简单浏览单个 URL 的过程实际上并不复杂。现在我们可以在时光机的页面中自由浏览了。
1.3 主动保存(保存页面)
搜索功能让我们可以在现在看到过去的网页。如果我们想让未来的人看到现在的网页是什么样子,时光机能不能提供这样的功能?答案自然是肯定的,就是关于网页时光机的主动保存功能。
其实Time Machine本身会根据网络环境的变化,自动选择网站的部分页面保存到自己的服务器;不过对于一些特殊的个人存储需求,Time Machine 也免费提供了主动存储这个功能。我们可以用它来抓取一些现在有特殊用途的关键网页,借助时间机器来形成和保存记录。我们以后只需要输入保存的网页的URL链接,就可以像现在一样浏览了。
网页时光机的主动保存方式包括但不限于以下两种:
第一种方式,也是最方便的方式,就是在Time Machine首页的Save Page Now中保存,如下图:
主动保存
第二种方式是借助浏览器插件。在浏览器中安装Wayback Machine Chrome扩展,进入要保存的页面,启动插件进行保存。其他的保存方式比较复杂,效果差别不大,这里不再赘述。
在输入框下方,是 Time Machine 对该功能的官方说明:捕获当前网页以供将来可信引用。将我们需要保存的URL复制到框中,点击SAVEPAGE按钮,在网页时光机中生成该网页的保存记录。一次SAVE操作只能保存一次URL链接,一个URL链接可以保存多次并生成多条保存记录;无法一次批量保存网页。
但需要注意的是,由于网络环境和人工干预的限制,有些网址可能无法被网页时光机抓取保存,或者保存的页面内容不完整、布局混乱等。话说,其实这个功能的成功率也不是100%。在网页时光机中,2009年保存的页面基本没有排版,这是因为当时的时光机没有成功保存那些网页的CSS样式表。
相同的短尾声
本文作为全系列的第一篇,主要讲述时光机最基本的功能和使用。后面的专栏会逐渐涉及到一些技术性的东西,所以这个问题不长。
由于本专栏由作者单独撰写,因此有时在写作或信息中出现错误或遗漏是不可避免的。如果有读者发现专栏有错误,或者觉得专栏有值得补充的内容,欢迎大家通过评论或私信提出建议和指正。以后作者修改专栏的时候,我会点名感谢你的。
再次感谢大家的阅读!