抓取动态网页 “即使断网

优采云 发布时间: 2022-06-18 12:21

  抓取动态网页 “即使断网

  加入慢牛社区,共建 Web 3.0!知名CMS系统网站搭建商创始人构建第一个Web3.0网站,更喜欢IPFS API而不是亚马逊专有API。

  全球知名的CMS系统Drupal创始人发布文章称自己利用IPFS和ENS构建了第一个Web3.0网站

  “即使我的笔记本电脑与互联网断开连接,我的网页仍然可用”

  

  对于国内很多互联网从业者来说,CMS是再熟悉不过的建站程序了,自从有了CMS后,改变了过去网站搭建需要完全手动敲代码的尴尬,毋须四处去找免费的建站程序,从而也避免了被代码后门木马一类的攻击的威胁。

  CMS是content management system的英文缩写,即内容管理系统,是一种位于WEB前端(Web 服务器)和后端办公系统或流程(内容创作、编辑)之间的软件系统。

  内容的创作人员、编辑人员、发布人员使用内容管理系统来提交、修改、审批、发布内容。这里指的“内容”可能包括文件、表格、图片、数据库中的数据甚至视频等一切你想要发布到Internet、Intranet以及Extranet网站的信息。

  内容管理还可选地提供内容抓取工具,将第三方信息来源,比如将文本文件、HTML网页、Web服务、关系数据库等的内容自动抓取,并经分析处理后放到自身的内容库中。

  内容抓取工具国内比较熟悉的有优采云,小蜜蜂采集器,让没有时间打理自己网站的个人站长免去了需要繁杂的从其他网站复制粘贴内容的劳烦。

  

  近日,全球知名的CMS系统Drupal创始人发布文章称自己利用IPFS和ENS构建了第一个Web3.0网站,

  

  原文如下:

  今天,我将使用 web3 技术发布我的第一个网页。我将上传一个页面到 IPFS(星际文件系统),dries.eth使用 ENS(以太坊名称服务)使其可用,并使用支持 web3 的浏览器访问它。

  如果您不知道这意味着什么,请准备好参加速成课程。

  第1步:购买 ENS 域名

  去年,我铸造buytaert.eth了.,最近,我购买了dries.eth. 两者都是ENS 域名。

  ENS代表以太坊名称服务,是一种基于开源区块链的命名协议。

  您可以将 ENS 视为 web3 的 DNS。DNS 将域名映射到 IP 地址,ENS 将域名映射到以太坊地址。以太坊地址可以指向加密货币钱包、内容哈希等。

  ENS 不仅仅是以太坊的服务;它是使用智能合约在以太坊上构建的通用 web3 服务。因为 ENS 是建立在区块链之上的,所以它比 DNS 更能抵抗审查。

  今天,拥有自己的 ENS 域的主要用例是使接收加密货币更容易。如果你想给我寄一些以太币,你必须把它0xbAD65DE65AE2c23f5eA30d12fC8c2f883cbe671f寄到我的以太坊钱包的地址。因为我拥有dries.eth,所以您可以发送它dries.eth。更容易记住!

  dries.eth无需任何中间人就可以从世界任何地方的任何人那里未经许可地收集加密货币,这真是太神奇了。

  但是,这不是今天博客文章的主题。在这篇博文中,我想展示如何dries.eth使用它来托管一个完全去中心化的 web3 网页。

  如果您想购买.eth域名,可以在ENS 域名网站上购买。由于.eth域名是 NFT(非同质代币),您还可以在OpenSea等 NFT 市场买卖域名。

  ENS 于 2017 年 5 月推出时,它仅支持 ENS 原生 TLD .eth。自 2021 年 8 月起,ENS 增加了对完整 DNS 命名空间的支持。

  因此,如果您拥有DNS,则可以使用ENS Domains 网站为.

  第 2 步:将 HTML 文件上传到 IPFS

  IPFS是InterPlanetary File System的缩写,是一种用于存储和共享数据的开源协议和点对点网络。

  如今,大多数网页都存储在单个服务器上,托管在单个数据中心中。这些站点对单点故障、拒绝服务攻击或政府审查的弹性不大。

  更高级的网站使用CDN和其他缓存系统复制他们的网页。我的网站使用多个 Kubernetes Web 节点,Varnish 和 Cloudflare,但那是因为我的公司帮助运行了世界上一些最大的网站,而不是因为我的网站需要它。所有这些技术都可以用来提高网站的弹性。

  使用 IPFS,您的网页可以在全球数百个“IPFS 节点”上复制。世界上每个人都可以运行一个 IPFS 节点。

  节点创建一个单一的全球网络,网络中的每个文件都有一个唯一的全球标识符。

  从理论上讲,IPFS比传统的网站托管更具弹性。由于 IPFS 节点由世界各地不同的人和组织运行,并且内容在它们之间复制,因此托管的内容更能抵抗单点故障、拒绝服务攻击或政府审查。另一方面,缓和错误信息也更加困难。

  我之所以写“理论上”是因为上传到 IPFS 的内容只有在世界某个地方的一个节点选择托管它时才保持可用。

  默认情况下,IPFS 不包含用于激励网络中其他节点复制数据的内置机制。每个 IPFS 节点都倾向于托管自己的数据。其他节点可以合作复制数据,也可以作为服务复制数据。

  这就是Filecoin的用武之地。与 IPFS 一样,Filecoin 是一个开源协议。

  IPFS 本身不是基于区块链的,但 Filecoin 是。Filecoin 通过一个用于存储和复制数据的公共市场扩展了 IPFS。

  矿工可以赚取Filecoin(一种加密货币代币)以换取存储和复制 IPFS 数据。因为 Filecoin 是基于区块链的,所以市场不属于单一中介。存储交易由网络上的节点以编程方式进行代理。

  长话短说,要在 IPFS 上托管我的网页,我需要至少一个 IPFS 节点愿意托管我的内容。

  有两种解决方案:

  1)我可以运行我自己的 IPFS 节点或(2)我可以支付第三方 IPFS 服务来托管我的内容。

  运行我自己的 IPFS 节点

  本着帮助构建去中心化网络的精神,运行自己的 IPFS 节点应该是首选。您可以在下面看到我的本地 IPFS 节点托管我的index.html文件:

  

  

  因为我的本地 IPFS 节点在我的笔记本电脑上运行,所以我的网页只有在我的笔记本电脑连接到互联网时才可用。

  如前所述,我可以使用 Filecoin 支付网络上的其他节点来复制我的内容。

  但是,我想出了一个更好的解决方案:我最好的朋友之一。

  我让他将我的文件“固定”在他的一些永久连接到互联网的 IPFS 节点上。

  这样,即使我的笔记本电脑与互联网断开连接,我的网页仍然可用。

  有几个朋友在 IPFS 上钉住彼此的网站,您不再需要为虚拟主机付费!

  第三方 IPFS 和 pinning 服务

  如果您不想运行自己的 IPFS 服务,或者您没有可以复制您的数据的朋友,您可以使用第三方 IPFS 和 pinning 服务。

  我找到了十几个固定服务,并尝试了以下方法:

  Infura使用其命令行工具可以轻松上传文件:

  $ ipfs-upload-client --id xxx --secret yyy ./index.html

  xxx是 Infura 项目 ID 和yyyInfura 项目密钥。

  Fleek和Pinata允许您从 Web 浏览器上传文件:

  

  

  如果您正在寻找基于 Filecoin 的解决方案,推荐使用web3.storage和estuary.tech。

  第 3 步:访问您的 web3 网页

  将文件上传到 IPFS 后,您将获得文件的“哈希”(唯一 ID 或地址)。index.html我的文件的哈希是:

  bafybeibbkhmln7o4ud6an4qk6bukcpri7nhiwv6pz6ygslgtsrey2c3o3q可以使用与 IPFS 兼容的浏览器(例如Brave )访问托管在 IPFS 上的内容。

  Firefox、Safari 和 Chrome 目前不原生支持 IPFS,但存在各种 IPFS 浏览器扩展。

  使用 Brave,您可以访问我的网页ipfs://bafybeibbkhmln7o4ud6an4qk6bukcpri7nhiwv6pz6ygslgtsrey2c3o3q(注意ipfs://架构)。

  

  第 4 步:将您的网页映射到您的域名

  能够访问您的 IPFS 托管网站非常简洁,但您可能不会要求其他人在 ipfs://bafybeibbkhmln7o4ud6an4qk6bukcpri7nhiwv6pz6ygslgtsrey2c3o3q 上查看您的新网页。使用 60 个字符的十六进制散列并不完全理想。

  这就是 ENS 的用武之地。我只需将Content Resolver记录设置dries.eth为与我的网页关联的 IPFS 哈希。

  

  更新 ENS 记录会永久更新以太坊区块链的状态。

  这意味着您必须支付“汽油费”或网络交易费。

  正如你在Etherscan上看到的,更新我的 ENS 记录花了我0.004369 以太币(当时 11.69 美元)。

  您现在可以使用 ENS 和 IPFS 兼容的浏览器访问。瞧,一个真正去中心化的网站!

  

  ENS 和 IPFS 是网络的未来吗?

  有各种各样的大缺点:

  我相信这些缺点将在未来几年得到解决。有些人可能已经有了解决方案。

  撇开缺点不谈,我相信 IPFS 和 ENS 有希望:

  Web3 对开发者意味着什么?

  如果您是开发人员,请将 web3 视为不断增长的新“Web 服务”集合。

  IPFS 和 ENS 就是两个这样的 Web 服务。

  今天,它们主要提供改进的弹性和审查保护。

  如果弹性和审查保护对您的网站很重要,请使用它们。

  如果不是,您不必使用它们。

  作为的所有者和开发者,我不关心审查保护。出于这个原因,我很高兴继续使用传统的托管技术。

  但我确实认识到 IPFS 和 ENS 在未来可能会变得更有趣。

  在目前的状态下,IPFS 和 ENS 对大多数网站所有者的价值有限,但对所有网站所有者的一小部分来说价值巨大。这在未来可能会改变。

  Web3 的承诺是什么?

  我确实认为观看 web3 空间很重要。

  新的强大的 web3 服务将会出现。

  互联网消除中间体的愿望已经持续了 20 多年,这是一个不可阻挡的趋势。

  使用 web3,更多的中介机构面临去中介化和去中心化的风险。

  这包括其商业模式依赖于专有数据库和分类账的组织;金融机构、中央银行、某些非营利组织、社会团体。其中许多可以变成真正去中心化的网络服务。

  例如,许多商业网站使用 PayPal 或 Square 等中介提供贷款和贷款偿还计划。

  随着时间的推移,其中一些中介机构可能会被无需许可的分布式网络服务所取代,这些服务收取的利息和/或交易费用较低。

  想象一下有一天,商业网站无需中介即可直接向客户提供贷款偿还计划变得非常容易。当利润率受益时,技术解决方案就会迅速被采用。

  区块链还将使我们能够以新的方式解决协调和所有权问题。

  在网络上创建内容(图像、音乐、视频、博客文章)的每个人都可以从中受益。其他人使用您的内容并以编程方式将价值流回您的能力非常令人兴奋。

  最重要的是,我希望这些去中心化服务能够帮助我们推进公共产品的管理方式、我们维持开源项目的方式,以及我们如何能够有意义地将权力从大型组织转移到个人和社区。但这是未来博客文章的主题。

  — Dries Buytaert

  

  Dries Buytaert 是 Drupal 开源 Web 发布和协作平台的原始创建者和项目负责人。

  Buytaert 担任 Drupal 协会主席,该协会是一个旨在帮助 Drupal 蓬勃发展的非营利组织。

  他还是 Acquia 的联合创始人兼首席技术官,Acquia 是一家风险投资支持的软件公司,为 Drupal 提供产品和服务。

  Dries 还是 Mollom 的联合创始人,Mollom 是一种网络服务,可以帮助您识别内容质量,更重要的是,可以帮助您阻止网站垃圾邮件。

  Buytaert 出生于比利时,拥有根特大学计算机科学与工程博*敏*感*词*和安特卫普大学计算机科学 (MSC) 学位。

  2008 年,Buytaert 被《商业周刊》评为科技青年企业家以及 MIT TR 35 Young Innovator。

  2011 年,《*敏*感*词*》将 Acquia 评为最有前途的 100 家公司之一。

  2012 年,Inc 宣布 Acquia 是美国发展最快的私人软件公司。

  重点:

  如前所述,我可以使用 Filecoin 支付网络上的其他节点来复制我的内容。

  但是,我想出了一个更好的解决方案:我最好的朋友之一。

  我让他将我的文件“固定”在他的一些永久连接到互联网的 IPFS 节点上。

  这样,即使我的笔记本电脑与互联网断开连接,我的网页仍然可用。

  在目前的状态下,IPFS 和 ENS 对大多数网站所有者的价值有限,但对所有网站所有者的一小部分来说价值巨大。这在未来可能会改变。

  Web3 的承诺是什么?

  我确实认为观看 web3 空间很重要。

  新的强大的 web3 服务将会出现。

  互联网消除中间体的愿望已经持续了 20 多年,这是一个不可阻挡的趋势。

  使用 web3,更多的中介机构面临去中介化和去中心化的风险。

  评:

  如何使用IPFS和Filecoin配合起来进行网站的搭建,这次给出了具体答案,最大的一点就是即使跟目前的互联网断开,依旧可以访问,这在实践上证实了IPFS和Filecoin的巨大价值,对于弥补或取代Http传统互联网天然弊端产生很大的影响。

  Filecoin是IPFS唯一的激励层,在操作中是相互关联和配合使用的。

  包括搭建网站在内的很*敏*感*词*实现,虽然在目前还需要不断探索和改进,相信在全球社区和开发人员不断努力下,会开发出更多的应用工具,在不久未来会得到更好的使用体验,并得到更多的使用。

  IPFS和Filecoin是相辅相成,互相配合,相互关联,IPFS需要Filecoin激励来存储更多数据,从而让更多的人参与进来,把数据传输网络壮大;同时,Filecoin也需要IPFS的底层传输技术把网络变得有价值。

  就好比以太坊和以太币一样。任何试图把IPFS和Filecoin分开,或者说独立无关者,要么是对项目的无知,就是混淆视听,另有所图,有着不可告人的目的。

  你的选择,决定你的未来!你选择相信什么,相信谁,就会给你什么样的答案!一切取决于你!

  本文内容综合整理于网络,版权归原作者所有,本号只用于信息传递分享。侵删。

  关注慢牛聊IPFS

  发现Web 3.0 时代新机遇

  

  点个在看你最好看

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线