抓取网页生成电子书(做为网站管理员肯定都知道Sitemap文件上有哪些可供抓取的网页 )
优采云 发布时间: 2021-12-21 07:15抓取网页生成电子书(做为网站管理员肯定都知道Sitemap文件上有哪些可供抓取的网页
)
作为网站的管理员,大家都知道站点地图文件对网站的重要性。最常见的是 sitemap.xml 和 sitemap.txt 文件。一些搜索引擎还需要 sitemap.xml.gz 的格式。通过这个文件,方便管理员通知搜索引擎网站哪些网页可以爬取。
列出网站中的URL以及Sitemap文件中每个URL的其他元数据(上次更新的时间、更改的频率、相对于网站上其他URL的重要性等),所以搜索引擎可以更智能地抓取网站。
这里有两个在线生成Sitemap文件的网站(如果网站自带这个功能,你现在可以关掉这个文章,或者打开我的个人主页看看其他干货) .
第一的
这个是国外的网站,但是用起来很方便。只需输入 URL 并等待程序自动完成。
如图,下载这个
解压后记得把urllist.txt重命名为sitemap.txt
第二
这个功能使用起来比较方便,但是只能生成.xml格式的文件。
跟进及建议
生成Sitemap文件后,上传到网站根目录,然后编辑robots.txt文件,指定Sitemap地址
写成:
Sitemap: http://www.mingdan.top/sitemap.xml
然后你可以到百度或者其他搜索引擎的站长平台提交。
下图以百度资源搜索平台(原百度站长平台升级)为例