网站内容复制(基于DOM树的实际应用中的复制原理是什么?)
优采云 发布时间: 2022-01-26 22:04网站内容复制(基于DOM树的实际应用中的复制原理是什么?)
目的
很多网页是不允许复制的,只能通过开通VIP、注册用户、使用专业工具完成ctrl+c、ctrl+v等简单操作。本文提供了一个相对简单的(cu)单(bao)方案。
注意!
这个文章很直(bie)率(niu)!它不一定有效!甚至可能有错误!请仔细阅读!
原理(请略过)
网页的结构基于 DOM 树。网页的内容将反映在 DOM 节点中。只需复制 DOM 节点上的内容,并在页面上获取渲染的内容。另外,一般禁止复制是使用Javascript/CSS来实现对一些DOM属性的控制,或者*敏*感*词*复制事件。这有效地防止了直接复制网页内容,但不影响阅读部分 DOM 源代码。我们只需要从这些 DOM 源代码中提取文本内容即可。
示例(百度图书馆)
我们先选择要复制的内容,然后右键弹出菜单。
这里以英文版Firefox 72为例,选择“查看选择源”。将弹出一个代码窗口。
Firefox 已经帮助我们选择了选定的文本。那就是:
http://192.168.1.1/cgi-bin/telnetenable.cgi?telnetenable=1
整理(为了阅读方便,实际操作可以省略),即:
http://192.168.1.1/cgi-bin/telnetenable.cgi?telnetenable=1
复制上图
...
中的文字
标签就足够了。获取:
http://192.168.1.1/cgi-bin/telnetenable.cgi?telnetenable=1
其他页面等等。
展开
在实际应用中,可以编写脚本方便复制,直接查看页面源码,将所有DOM代码作为输入输出纯文本内容。