百度搜索指定网站内容(如何下载整个网站做成快照迷你版的Google或百度？(组图))

优采云发布时间: 2022-04-19 19:00

　　看到百度收录页面，我点击了收录链接旁边的截图，看到了你的网站截图，整个复制到百度服务器，是不是觉得不可思议？百度蜘蛛是如何工作的？你的网站上真的有数字蜘蛛爬行吗？万维京生工程师整合互联网文章为大家分析。

　　所谓爬虫就是一个程序。什么节目？他从他访问的任何一个页面开始，在符合搜索引擎robot.txt规则文件的条件下，几乎无限制地访问和镜像/复制他访问的所有页面，并通过相关程序进行爬取、镜像和索引。对数据进行存储、比较、分析和重新索引以形成搜索引擎数据库。

　　这个爬虫厉害吗？有点想养爬虫的冲动？万维精盛工程师满足你冲动的好奇心！

　　这个爬虫程序，说白了就是一个复制页面的程序。在linux系统的世界里，也有这样一个爬虫程序，而且免费、轻量、功能齐全，这就是我们今天想知道的wget程序。

　　wget 是一个下载程序/命令。

　　如何下载整个网站做快照，如何搭建谷歌或百度的迷你版？

　　Wget 是一个免费工具，可在包括 Mac、Window 和 Linux 在内的多个平台上使用，它可以帮助您完成上述所有任务等等。与大多数下载管理器不同，wget 可以跟踪网页上的 HTTP 链接并递归下载相关文件。前往*敏*感*词*的士兵使用这个工具从美军内网下载了数千份机密文件，并将其发布在维基解密上。以下引述是对wget命令选项文章的介绍，供大家扩展知识。

　　使用 Wget 抓取和快照网站——20 个实用示例

　　wget 是一个非常强大的工具，但是像大多数其他命令行程序一样，这里我们列出了一些 wget 命令来帮助您完成一些常见任务，包括下载单个文件和进行网站备份等。如果您有时间通读wget手册，你可以设计自己的爬虫。

　　1)从网上下载单个文件

　　wget

　　2) 下载文件，但将其另存为本地文件，但名称不同

　　wget --output-document=filename.html

　　3) 下载文件并保存到指定目录

　　wget --directory-prefix=文件夹/子文件夹

　　4)恢复之前中断的 wget 下载

　　wget --continue /big.file.iso

　　wget -c /big.file.iso

　　5) 下载文件，但只有在服务器上的版本比本地版本新时才会真正执行它

　　wget --continue --timestamping /latest.zip

　　6)使用wget下载多个url，这些url存储在一个文本文件中，每行一个url

　　wget --input list-of-file-urls.txt

　　7) 从服务器下载一些序列号连续作为文件名的文件

　　wget{1..20}.jpg

　　wget{1..20}-post.jpg

　　8) 下载网页，包括其所有内容，例如样式表和收录的图像，这些都是确保网页离线显示所必需的

　　wget -page-requisites --span-hosts --convert-links --adjust-extension

　　wget -p -H -k -E

　　使用 Wget 备份网站的图像

　　9) 下载整个网站，包括其所有链接的页面和文件

　　wget --execute robots=off --recursive --no-parent --continue --no-clobber

　　wget -e robots=off -r -np -c -nc

　　10)从网站上一个子目录下载所有MP3文件

　　wget --level=1 --recursive --no-parent --accept mp3,MP3

　　wget -l 1 -r -np -A mp3,MP3

　　11)将网站上的所有图片下载到同一目录

　　wget --directory-prefix=files/pictures --no-directories --recursive --no-clobber --accept jpg,gif,png,jpeg

　　wget -P 文件/图片 -nd -r -nc -A jpg,gif,png,jpeg

　　12)从一个网站递归下载PDF文件，但不要跳出指定域

　　wget --mirror --domains=,, --accept=pdf

　　wget -m -D ,, -A pdf

　　13) 从一个网站下载所有文件，但不包括某些目录

　　wget --recursive --no-clobber --no-parent --exclude-directories /forums,/support

　　wget -r -nc -np -X /forums,/support

　　使用 Wget 下载受限内容

　　Wget 可用于在网站上登陆页面后下载内容，或绕过屏幕截图中 HTTP 引用和用户代理字符串的限制。

　　14) 下载网站上的文件，假设这个网站Check User Agent 和 HTTP referer

　　wget --referer=/5.0 --user-agent="Firefox/4.0.1"

　　15)从密码保护下载文件网站

0

2022-04-19

百度搜索指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索指定网站内容(如何下载整个网站做成快照迷你版的Google或百度？(组图))

0 个评论

发起人

AI时代内容工厂

百度搜索指定网站内容(如何下载整个网站做成快照迷你版的Google或百度？(组图))

0 个评论

发起人

相关问题