flash网页抓取工具(网收录于话题#工具箱4个“网站时光机”是深受调查记者们喜爱的在线调查工具)
优采云 发布时间: 2022-04-14 20:31flash网页抓取工具(网收录于话题#工具箱4个“网站时光机”是深受调查记者们喜爱的在线调查工具)
原创 Mark Graham 全球深度报道网络收录 主题 #toolbox 4
“网站Time Machine”是一款深受调查记者欢迎的在线调查工具。它可以保存不同时间段的网页内容。即使原来的网页后来被删除或更改,您仍然可以查看之前的网页。快照。在本期文章中,“网站Time Machine”的负责人向我们介绍了它的使用技巧,包括如何批量抓取、比较不同版本网页的差异、查看网页情况信息并使用 API 等。
非营利性在线图书馆 Internet Archive 庆祝成立 25 周年,其使命是“普及所有知识”。它最著名的服务是“网站Time Machine”(Wayback Machine),它每天接收超过 10 亿个请求(包括审查和归档),我目前负责管理这项服务。
Internet Archive 及其子项目“网站Wayback Machine”是非常重要的*敏*感*词*工具。图片:Shutterstock
记者、研究人员、事实核查人员和公众每天都可以通过各种方式免费访问 网站Time Machine。网上已经有很多文章对该服务的介绍。事实上,在 GIJN 的 2020 年度调查工具盘点中,不少记者将“网站Time Machine”列为自己的最爱。工具之一。
下面我将简要介绍如何使用“网站Time Machine”进行研究。
存档网址
如果您发布的 文章 引用了另一个 文章,并且该 文章 已被作者删除或由于 网站 本身的问题而无法访问,则您没有如果此 文章 已存档,可能再也找不到了 - 但不要让这种情况发生在您身上。
每天,数以亿计的 URL 被许多用户通过“网站Time Machine”“保存页面”服务存档。任何人都可以提交他们想要保存的网址,如果您注册一个免费帐户,您还可以请求抓取相关页面中的“外链”,并通过电子邮件接收抓取报告。
这里有一个小技巧:如果要批量保存网址,可以将它们全部放在Google表格的A列中,然后通过此处()提交此Google表格,然后此表格的B,C和D列会自动填写存档状态、存档地址、URL是否之前存档过。
存档网页的另一种方法是向相关 URL 发送电子邮件。如果您在电子邮件的主题中写下“捕获外链”,则该 URL 的外部链接也会被保存。同样,抓取完成后,您将收到有关保存的电子邮件报告。
最后,对于精通技术的人,“网站Time Machine”还提供应用程序编程接口 (API),允许您集成到*敏*感*词*山的技术非营利组织 Meedan 将“网站Time Machine”服务集成到其“检查”服务中。Midan 是一个通过开发软件来支持新闻业的非营利组织。
比较不同的存档版本
你有没有想过比较两个不同的网络档案之间的差异——也许是想看看一个公司或个人是如何改变网页上的措辞的?您可以使用 网站Time Machine 的“更改”功能来做到这一点。
要使用此功能,只需在 Web Time Machine 的搜索框中输入任何存档的 URL,然后选择“查看更改”即可查看不同日期和时间的存档版本列表,我们将使用不同的颜色等级来表示程度从一个存档 URL 更改为另一个。
接下来,您可以选择任意两个带有时间戳的 URL 版本,它们将并排呈现,不同的文本以蓝色或*敏*感*词*突出显示。例如,以下案例展示了英国首相前顾问多米尼克·卡明斯如何试图改写历史。
'网站Time Machine'' 'See Changes' 功能捕捉了前英国首相顾问多米尼克卡明斯如何将秘密内容(蓝色)添加到他原来的文章(左)标记)。
如果您想了解更多在线调查技术
5月31日(下周一)下午4点),我们邀请了在线调查大师保罗迈尔斯为东亚记者举办在线调查研讨会,他们将介绍更多“网站时间机器”以及如何通过搜索引擎缓存和其他技术存储进行在线研究。
工作坊注册地址:
全文搜索
由于存档页面中的文本没有被索引,“网站Time Machine”无法提供全文搜索功能,这意味着您需要知道搜索页面的具体URL才能搜索相关页。但是“网站Time Machine”工程师正在索引特定档案中网页的元数据。
使用 API
除了“保存页面”API(应用程序编程接口)之外,“网站Time Machine”还有一些其他的API,例如用于查询URL是否已归档的API。您可以在此处了解更多信息 ( )。
与大多数服务一样,“网站Time Machine”没有官方 API 的使用频率上限,但我们可能偶尔会采取节流措施。如果您对 网站Time Machine 有任何问题,可以给我们发送电子邮件或在 Twitter 上 DM 我们,支持记者是我们的首要任务。
了解存档网页
我们意识到上下文和出处等信息对于更完整地理解相关网页上的信息至关重要。因此,我们开始在存档页面中添加上下文横幅,以帮助用户更好地了解有关存档的信息。当存档页面已被删除或已被知名研究机构提及时,此横幅很有用。
“网站Time Machine”顶部可能会有外链提示,也可以点击右上角的“About this Archive”了解更多关于存档页面的信息。
归档有关网页的信息以了解它是很重要的。例如,页面上的某些图像是否与其他元素同时被抓取?您可以通过单击每个存档页面右上角的“关于此捕获”来了解存档页面。
存档页面的完整性和存档页面上信息的透明度一直对我们很重要,这也增加了对“网站Time Machine”的信心——目前已被全球多个*敏*感*词*接受“网站时间机器”@>时间机器”作为证据。
浏览器扩展
我们有适用于 Safari、Firefox 和 Chrome 的浏览器扩展,以及适用于 iOS 和 Android 的应用程序。我们还与搜索引擎 Brave 合作,在他们的浏览器中构建 404(和其他错误条件)检测。
除了存档大多数公共网络资源外,互联网档案馆还维护其他资料,包括通过互联网档案学者服务提供的超过 2500 万篇学术论文;近 3000 万册可供预览、借阅或下载的电子书和文档;数百万小时的电视新闻存档,并为全文搜索编入索引。
如果您想了解更多关于 网站Time Machine 的信息,非常欢迎您在 Twitter 上关注我们@internetarchive 或@waybackmachine,并阅读我们的官方博客。
关于作者
Mark Graham 管理“网站Time Machine”已有五年多了。在此之前,他是 NBC 的高级副总裁,负责数字新闻相关业务。格雷厄姆还帮助运营了第一个将美国与前苏联联系起来的电子邮件服务,并帮助建立了面向女性的在线服务 iVillage。