【建站系列教程】2、数据源

优采云 发布时间: 2020-08-12 14:28

  网站主题首先,在做网站之前,得明晰自己是要做哪些网站,为什么要做网站。以下分类只针对个人站长:数据源哪些是数据源?顾名思义,就是网站里面的信息来源。

  网站里面的信息其实以原创最佳,但是绝大多数站长都是用网上已有的信息。比如,信息采集器、小说采集器、爬网页、抓插口等等。这里我们来分类一下常见网站的信息来源,我们以小说网站为例:数据来源于数据库

  有关于数据库的知识,不再重复,这里主要介绍数据库与建站的关系

  当你买了一个服务器以后,一般会有一个镜像系统,然后会配套有一个数据库。当我们把网站数据放到这个配套的数据库上面,查询和恳求数据都会很快。

  优点:查询速度快,自己的数据不怕遗失

  缺点:像我想做个小说网站那样的,一本小说动辄2000章,一本出来大约有5M,网站书库有10W本的话,您算算这数据库得多大容量。所以对于我们这种小站长来说,缺点也是显而易见的,就是很占储存空间。

  相关做法:

  1、手动导出数据库信息,这个成本很高,一般采取方式23。

  2、爬api接口,然后把api返回的数据写脚本导出到自己的数据库。

  3、写python脚本,爬数据导出到自己的数据库。数据来源于api接口

  这里我会写几篇教程,帮助你们提取网站、手机的api接口,超实用。请你们移步查看我的fiddler抓包教程。

  对于我们程序员来说,破解他人的网站、接口是一件大块人心的事情。而拥有api插口的我们更是可以为所欲为(哈哈)。

  因为把小说置于自己的数据库的不现实,所以我把目标置于一些小说的开发api上。后来查了一大堆资料,得用抓包工具去抓插口,于是我去了,且成果明显,在后续的博客中我会把小说的开发api免费分享给你们。

  优点:自己不需要建数据库,占空间少,拿他人的插口直接用。

  缺点:

  1、别人的插口终归是他人的,某天他人把插口关了,你的网站就凉凉了。

  2、而且,直接调用api接口,会对网站的响应速率有很大影响。

  3、因为插口缘由,你只想恳求10条数据,但是你不知道插口参数,所以每次都返回个1000条数据,可想而知,这多占速率。

  获取api相关做法:

  1、看网站源码,看看能不能提取下来有用的插口。

  2、用fiddler抓包。后续有教程

  3、去正规网站购买api服务。数据来源于python爬虫

  贴士:爬虫的话通常是搜索引擎用的比较多,因为它须要爬全网的网站来做排行、权重等等。就个人而言,爬虫了解会用就行,没必要深入。

  我不知道python爬虫为何很火的。但是说实话,js、PHP、java那个没有能力爬虫?可能前者的沉淀比较深,不去与python争罢了。

  python爬虫相关做法:

  1(实用)、一般做法是,针对某个网站去写python脚本,然后提取信息导出到自己的数据库上面。

  2(鸡肋)、利用爬虫技术(说白了就是正则表达式处理字符串),封装成api,供自己调用。这个不推荐,因为这个历时比直接调用数据插口还长得多。总结

  在做网站之前,选好网站的主题与内容,然后去找数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线