c爬虫抓取网页数据(爬虫搜索引擎如何获取一个新网站的数据?(组图))
优采云 发布时间: 2021-12-26 05:08c爬虫抓取网页数据(爬虫搜索引擎如何获取一个新网站的数据?(组图))
爬虫基本概念数据从何而来?
部分数据来源如下:
爬虫是一种获取数据的方式。
什么是爬虫?
爬虫是抓取网络数据的自动化程序。
爬虫是如何抓取网页数据的
网页的三个特点:
每个网页都有自己唯一的URL(Uniform Resource Locator)用于定位;网页使用 HTML(超文本标记语言)来描述页面信息;网页使用 HTTP/HTTPS(超文本传输协议)来传输 HTML 数据。
根据网页的特点,我们提出了爬虫的设计思路:
1. 获取网页
向服务器发送Request请求,得到Response后解析Body部分,即网页的源代码。
Python 库:Urllib、Requests 等。
2. 提取信息
分析网页源代码,提取我们想要的数据。
提取方法
3.保存数据通用爬虫和焦点爬虫通用爬虫
搜索引擎的爬虫系统。
1.目标
尽量将互联网内容下载到本地服务器形成备份,然后对这些网页进行相关处理(提取关键词、去除广告),最终形成用户搜索界面。
2. 获取过程
通用网络爬虫工作流程图
最好选择一部分已有的URL,将这些URL放入待抓取的队列中。从队列中取出这些URL,然后通过DNS解析得到主机IP,然后到这个IP对应的服务器去下载HTML页面并保存到搜索引擎的本地服务器。然后将抓取到的网址放入抓取队列中。分析这些网页的内容,找出网页中其他的URL链接,继续执行第二步,直到爬取条件结束。3.搜索引擎如何获取新网站的网址?主动向搜索引擎提交网址:建立到其他网站的外部链接。搜索引擎将与 DNS 服务提供商合作以快速收录新网站。
DNS:是一种将域名解析为IP的技术。域名必须对应一个IP,但IP可以没有域名。
4.万能爬虫不是所有东西都能爬,也需要遵守规则
Robots协议:该协议会规定一般爬虫爬取网页的权限。
Robots.txt 只是一个建议,并非所有爬虫都遵守。一般来说,只有大型搜索引擎爬虫会遵守它。我们个人编写的爬虫被忽略了。
5.一般爬虫工作流程
抓取网页-存储数据-内容处理-提供检索/排名服务
6.搜索引擎排名PageRank值:根据网站流量(点击量/浏览量/流行度)统计,流量越高,网站价值越高,排名越高。竞价排名:谁出价越多,谁的排名就越高。7.一般爬虫的缺点只能提供与文本相关的内容(HTML、Word、PDF)等,不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)等. 提供的结果是一样的,不能为不同背景的人提供不同的搜索结果。无法理解人类语义检索。
为了解决上述问题,出现了聚焦爬虫。
焦点履带
抓取特定内容并尝试抓取与主题相关的信息。