解决提取受保护网页中内容的最简单也是最有效的方法
优采云 发布时间: 2021-04-25 19:06解决提取受保护网页中内容的最简单也是最有效的方法
为了保护内容,许多网页都会添加禁止使用“复制”命令的加载项,有些还会添加禁止使用左右键的代码,以使访问者无法复制其内容。
在这种情况下,我曾经使用过诸如禁用所有附加组件和修改源文件代码之类的方法。尽管它会产生一些影响,但总会带来麻烦。后来,我对网页本身的了解使我知道上述方法都不是问题的关键。让我向您介绍从受保护的网页中提取内容的最简单,最有效的方法。
网页实际上是使用网页设计语言(代码)描述网页样式和内容的文件。它基本上是与txt文件相同的简单编码格式。从理论上讲,只要调用源文件,就可以提取网页中的所有内容。提取网页源文件的方法实际上非常简单。下面,我将向您介绍提取网页源文件并将文本与图片结合在一起的方法。
提取源文件的方法在各种浏览器中是不同的。 IE7 / 8的方法是单击命令栏中的“页面视图源文件”命令;其他浏览器中的查看源文件命令基本上在“查看”菜单中。
上面的图片是源文件的内容,您可以轻松找到所需的文本内容,并在找到后进行复制。
将复制的文本粘贴到word或wps文档中,然后简单地将其排版。我想在这里解释的是,将会有很多文本,例如“
您可以删除页面控制字符,例如“
”手动操作,也可以使用“查找/替换”命令清除它们。具体方法如上图所示。只要不在“替换为”文本框中输入内容,请单击“单击“全部替换”按钮后,将删除文档中与搜索内容匹配的所有字符串(输入搜索内容时,请注意标点符号的全角和半角以及大写字母。仅完全匹配的内容将被删除。替换)。