php抓取网页标签(Linux文本编辑器Vim“真·简单”使用教程(组图))
优采云 发布时间: 2021-12-05 00:08php抓取网页标签(Linux文本编辑器Vim“真·简单”使用教程(组图))
因为金哥分享的东西(杂)越来越多,分类越来越多,层次越来越多,所以为了更好的显示URL地址,我们计划在近期修复所有文章 链接来自原创
/%category%/%post_id%.html
改为
/%post_id%.html
这将统一所有文章链接,不再有老长老;另一个优点是文章链接二维码也可以很简单。但是,更改 URL 是 SEO 的禁忌。为此,金哥参考了百度的网站修改规则,最大限度地保留了原来的收录。
获取所有链接
将下面的代码复制到utf8文件中,命名为post.php(文章)、page.php(page)、category.php(category)、tag.php(tag),放入网站 根目录没问题。
获取所有文章链接代码↓
获取所有页面链接代码↓
获取所有分类链接代码↓
获取所有标签链接代码↓
然后,进入服务器,以root账号使用wget命令结合这个PHP代码文件,生成指定的TXT文件。由于金哥只修改了文章链接,这里仅以文章命令为例,页面、分类、标签的修改请参考
wget -O /***/***/www.dujin.org/post.txt --no-check-certificate https://www.dujin.org/post.php
运行前需要注意自己的网站路径和txt文件存放路径。 --no-check-certificate 参数是因为 Jin 的博客是 HTTPS。如果 HTTP 站点可以删除此参数。
如果你的网站设置了360网站Guard或者其他CDN服务,还需要使用vim命令修改hosts文件,将你的网站域名指向你的服务器IP地址。
vim /etc/hosts
Linux 文本编辑器 Vim 《真·简单》教程
操作完成后,会在网站的根目录下生成一个post.txt文档。
此时使用纯文本编辑软件(如Emurasoft文本编辑器)批量查找替换重复的XML标记代码。
EmEditor 32&64 bit v17.4.第2版下载,附注册码
好了,到此为止,所有的URL链接都已经获取到了。如果您有任何问题,请留言。