php抓取网页标签(Linux文本编辑器Vim“真·简单”使用教程(组图))

优采云 发布时间: 2021-12-05 00:08

  php抓取网页标签(Linux文本编辑器Vim“真·简单”使用教程(组图))

  因为金哥分享的东西(杂)越来越多,分类越来越多,层次越来越多,所以为了更好的显示URL地址,我们计划在近期修复所有文章 链接来自原创

  /%category%/%post_id%.html

  改为

  /%post_id%.html

  这将统一所有文章链接,不再有老长老;另一个优点是文章链接二维码也可以很简单。但是,更改 URL 是 SEO 的禁忌。为此,金哥参考了百度的网站修改规则,最大限度地保留了原来的收录。

  获取所有链接

  将下面的代码复制到utf8文件中,命名为post.php(文章)、page.php(page)、category.php(category)、tag.php(tag),放入网站 根目录没问题。

  获取所有文章链接代码↓

  获取所有页面链接代码↓

  获取所有分类链接代码↓

  获取所有标签链接代码↓

  然后,进入服务器,以root账号使用wget命令结合这个PHP代码文件,生成指定的TXT文件。由于金哥只修改了文章链接,这里仅以文章命令为例,页面、分类、标签的修改请参考

  wget -O /***/***/www.dujin.org/post.txt --no-check-certificate https://www.dujin.org/post.php

  运行前需要注意自己的网站路径和txt文件存放路径。 --no-check-certificate 参数是因为 Jin 的博客是 HTTPS。如果 HTTP 站点可以删除此参数。

  如果你的网站设置了360网站Guard或者其他CDN服务,还需要使用vim命令修改hosts文件,将你的网站域名指向你的服务器IP地址。

  vim /etc/hosts

  Linux 文本编辑器 Vim 《真·简单》教程

  操作完成后,会在网站的根目录下生成一个post.txt文档。

  

  此时使用纯文本编辑软件(如Emurasoft文本编辑器)批量查找替换重复的XML标记代码。

  EmEditor 32&64 bit v17.4.第2版下载,附注册码

  好了,到此为止,所有的URL链接都已经获取到了。如果您有任何问题,请留言。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线