抓取网页生成电子书(制作一个最新文章列表减少蜘蛛爬行的步骤【模板】)

优采云 发布时间: 2021-12-25 00:04

  抓取网页生成电子书(制作一个最新文章列表减少蜘蛛爬行的步骤【模板】)

  最近在研究垃圾站采集和搜索引擎收录的关系。因为一天的采集数量很多,虽然首页有的地方调用了最新的文章,但是调用的数据只有几条,远不是成百上千的采集 每天的内容。

  由于采集返回的内容太多,专栏的列表页每天会增加几页。如果蜘蛛逐页爬行,会增加访问目标页面的难度,因此萌发了制作一个最新的文章列表,减少了蜘蛛爬行的步骤。通过首页,访问最新的文章列表页面,然后可以到最后的文章页面,应该有利于搜索引擎爬取和收录,在性质为 xml 映射,但这只是 HTML 页面。

  演示地址:

  修改方法:

  1、下载压缩包,解压后上传到根目录。

  2、进入网站后台核心->通道模型->添加单页文档管理页面。

  3、页面标题、页面关键词和页面摘要信息根据自己网站的情况填写,模板名和文件名参考下图,编辑中无需添加任何内容框,我已经在模板中给你设置好了。

  <IMG class="size-full wp-image-1171 aligncenter" title=增加新页面 alt="" src="http://image39.360doc.com/DownloadImg/2011/10/1418/18483557_1.jpg" width=500 height=344>

  4、设置好后点击确定,会在网站的根目录下生成一个sitemap.html页面。生成页面的名称和位置可以在文件名中自定义。

  5、还没有自动更新。下次加一些代码实现自动更新。现在需要进入单页文档管理手动更新。

  您可以根据需要编辑模板文件中的代码以更改数据条目和行数。

  {dede:arclist row='50' col='1' orderby=pubdate}

  [字段:标题/]

  {/dede:arclist}

  您还可以创建一个没有图片的简单导航页面。

  在模板的底部,有一个织梦 管理员主页的链接。如果您认为链接的存在会对您产生影响,您可以随意删除。如果你觉得这个方法对你有帮助,希望你能留下链接。也是对我最大的支持,谢谢。

  如果您遇到任何问题,您可以给我留言。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线