【建站系列教程】2、数据源
优采云 发布时间: 2020-08-12 14:28网站主题首先,在做网站之前,得明晰自己是要做哪些网站,为什么要做网站。以下分类只针对个人站长:数据源哪些是数据源?顾名思义,就是网站里面的信息来源。
网站里面的信息其实以原创最佳,但是绝大多数站长都是用网上已有的信息。比如,信息采集器、小说采集器、爬网页、抓插口等等。这里我们来分类一下常见网站的信息来源,我们以小说网站为例:数据来源于数据库
有关于数据库的知识,不再重复,这里主要介绍数据库与建站的关系
当你买了一个服务器以后,一般会有一个镜像系统,然后会配套有一个数据库。当我们把网站数据放到这个配套的数据库上面,查询和恳求数据都会很快。
优点:查询速度快,自己的数据不怕遗失
缺点:像我想做个小说网站那样的,一本小说动辄2000章,一本出来大约有5M,网站书库有10W本的话,您算算这数据库得多大容量。所以对于我们这种小站长来说,缺点也是显而易见的,就是很占储存空间。
相关做法:
1、手动导出数据库信息,这个成本很高,一般采取方式23。
2、爬api接口,然后把api返回的数据写脚本导出到自己的数据库。
3、写python脚本,爬数据导出到自己的数据库。数据来源于api接口
这里我会写几篇教程,帮助你们提取网站、手机的api接口,超实用。请你们移步查看我的fiddler抓包教程。
对于我们程序员来说,破解他人的网站、接口是一件大块人心的事情。而拥有api插口的我们更是可以为所欲为(哈哈)。
因为把小说置于自己的数据库的不现实,所以我把目标置于一些小说的开发api上。后来查了一大堆资料,得用抓包工具去抓插口,于是我去了,且成果明显,在后续的博客中我会把小说的开发api免费分享给你们。
优点:自己不需要建数据库,占空间少,拿他人的插口直接用。
缺点:
1、别人的插口终归是他人的,某天他人把插口关了,你的网站就凉凉了。
2、而且,直接调用api接口,会对网站的响应速率有很大影响。
3、因为插口缘由,你只想恳求10条数据,但是你不知道插口参数,所以每次都返回个1000条数据,可想而知,这多占速率。
获取api相关做法:
1、看网站源码,看看能不能提取下来有用的插口。
2、用fiddler抓包。后续有教程
3、去正规网站购买api服务。数据来源于python爬虫
贴士:爬虫的话通常是搜索引擎用的比较多,因为它须要爬全网的网站来做排行、权重等等。就个人而言,爬虫了解会用就行,没必要深入。
我不知道python爬虫为何很火的。但是说实话,js、PHP、java那个没有能力爬虫?可能前者的沉淀比较深,不去与python争罢了。
python爬虫相关做法:
1(实用)、一般做法是,针对某个网站去写python脚本,然后提取信息导出到自己的数据库上面。
2(鸡肋)、利用爬虫技术(说白了就是正则表达式处理字符串),封装成api,供自己调用。这个不推荐,因为这个历时比直接调用数据插口还长得多。总结
在做网站之前,选好网站的主题与内容,然后去找数据。