php禁止网页抓取(静态URL静态化的处理方法及解决办法(一))
优采云 发布时间: 2022-01-13 19:20php禁止网页抓取(静态URL静态化的处理方法及解决办法(一))
一、网址静态
1、网址静态
什么是静态网址?
静态 URL 是没有“?”、“=”和“&”等字符的 URL
例子:
/thread-2539-1-1.html
/index.php
/家店
- 什么是动态 URL?
指带有“?”、“=”、“&”等字符参数的URL
示例:/news/table.php?word=bbs
2.URL 的目录层次结构较少
3.网址收录关键词拼音
二、URL 规范化
以下可以参考同一个网页:
漏洞:1、搜索引擎可能会将收录它们输入数据库,这样搜索引擎会认为这些页面是相同的,可能会将你的网站视为作弊处理。2、即使不是作弊,搜索引擎通常也只会选择其中一个返回搜索结果,而将其他重复的页面排在最底部,这样就根本找不到了。
解决方案:301重定向到一个网站唯一的主域名
三、404 页面设置
404页面:
404页面是用户输入错误链接时返回的页面
示例:输入新东方死链接
404页面设置步骤:
1、将准备好的404页面通过ftp上传到网站根目录wwwroot
2、在主机管理后台添加404页面设置
四、robots.txt 设置
robots.txt :robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也是robots.txt,网站告诉搜索引擎哪些页面可以爬,哪些页面不想爬通过机器人协议。
robots协议是国际互联网社区常用的网站道德规范。其目的是保护网站数据和敏感信息,并确保用户的个人信息和隐私不受侵犯。因为不是命令,所以需要搜索引擎有意识地服从。
robots.txt 的放置:robots.txt 文件应放置在 网站 根目录下。
例如:当Spaider访问一个网站时(例如),它会首先检查该文件是否存在于网站中。如果 Spider 找到了这个文件,它会根据文件的内容来判断它的访问权限。权限范围。
如何编写 robots.txt 文件
User-agent:* 这里*代表所有搜索引擎类型,*是通配符
Disallow:/admin/ 这里的定义是禁止爬取
admin目录下的目录
Disallow:/*?* 禁止访问所有在 网站 中收录 hello (?) 的 URL
Disallow:/.jpg$ 禁止抓取来自网络的所有 .jpg 图像
disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件
allow:/cgi-bin/ 这里的定义是允许爬取cgi-bin目录下的目录
Allow:.htm$ 只允许访问以 .htm 为后缀的 URL
Allow:.gif$ 允许抓取网页和 gif 格式的图片
站点地图:网站地图告诉爬虫这个页面是一个网站地图
五、网站映射
什么是网站地图
网站 地图,也称为站点地图,是一个带有指向 网站 上所有页面的链接的页面。大多数人在 网站 上找不到所需信息时,可能会求助于 网站 地图。搜索引擎蜘蛛喜欢 网站 地图。网站地图对于蜘蛛来说就相当于蜘蛛网,它可以通过网站地图爬到它想到达的页面。网站还可以通过添加网站 映射来增加网站 的收录 音量。
网站地图分类
网站地图分类
六、Dedecms后台生成网站地图
• 进入网站的后台,找到左侧的生成标签
• 在 Generate Options 中选择 Update网站Map
• 点击更新网站贴图,选择法线贴图
• 点击浏览
七、网站地图构建技巧
• 网站地图收录最重要的页面
• 布局要简洁,所有链接都是标准的 HTML 文本
• 尝试向站点地图添加文字说明
• 在每个页面中放置 网站 指向地图的链接
• 确保网站map 中的每个链接都是正确和有效的
• 可以将站点地图写入 robots.txt
北京耀图盛世多年来一直致力于将SMO、SEO、SEM等互联网营销方式有机结合的外包服务领域,快速打造企业品牌在线口碑。业务涵盖媒体报道、品牌策划、品牌建站、SEO、SEM等全方位互联网品牌运营推广。
耀图盛世秉承“服务至上,追求卓越”的经营理念,致力于成为公司身边的互联网营销专家。耀途盛世为每一位客户提供更先进的网络营销理念、更放心的售前售后服务和网络知识培训体系,将竭诚为客户提供互联网品牌营销等全方位一体化解决方案。