分享文章:【源码分享】给你一个开源文库网站

优采云 发布时间: 2022-11-01 02:26

  分享文章:【源码分享】给你一个开源文库网站

  最近看到一个类似于百度文库的开源库系统。它可以用来构建和运行你自己的库网站。

  虽然百度图书馆等综合性图书馆网站已经建立,但是如果你打算做一个综合性图书馆网站,还是不现实的,因为空间太小了。

  但是,如果专注于某个方向的图书馆网站,比如课后练习答案库网站、IT行业图书馆网站、教育图书馆网站等,专注于一个行业领域,空间还是很大的为了成长。和图片网站一样,现在很多搜索引擎都可以搜索图片,但是Pinterest、Petalnet等还没有做到吗?

  主要技术栈

  后端:Go语言框架Beego

  前端:基于Bootstrap的前端框架Flat-UI

  数据库:MySQL,数据存储

  依赖环境:Libreoffice(或Openoffice),用于将office文档转换为PDF

  pdf2svg,用于将 PDF 转换为 svg 矢量图像以供阅读。

  calibre,用于将mobi、chm、epub等文档转为PDF,再将pdf转为svg

  阿里云OSS,存储office文档、PDF文档、svg等文件

  特色文档在线阅读

  DocHub库使用svg矢量图来实现文档阅读体验。在我所知道的图书馆网站中,新浪艾问通过png等图片提供文档阅读体验。

  与png、jpeg等图片格式相比,SVG有很大的优势,至少放大后不会变形,而且相比JPEG、GIF图片,svg体积更小,压缩性更强。DocHub通过gzip压缩svg文件,一般情况下可以减少70%的文件大小,比如200kb svg,gzip压缩后只有60kb左右。

  使用 svg 大大提高了加载速度,优化了内容的阅读体验。

  

  可在线阅读的办公文档

  这需要两层转换:

  office --> pdf --> svg

  在线阅读PDF文档

  通过pdf2svg转换PDF文档进行在线阅读

  mobi、epub、chm文档在线阅读

  使用 calibre 将文档转换为 PDF,然后将 pdf 转换为 svg。

  全部研究

  全文搜索功能之前是用coreseek开发实现的,现在coreseek的官网已经停掉了……打算用elasticsearch重新实现这个功能。

  文档采集功能【TODO】

  在建站初期,网站内容的填充是一个很大的难点。

  不过在GitBook、ReadTheDoc等网站上,有大量的开源技术文档,提供mobi、pdf、epub离线文档下载。

  据初步统计,GitBook 中有超过 100,000 个文档,估计可用文档数为 50,000。每个文档提供 3 种格式的下载。仅从 gitbook采集 文档中,就有 150,000 个文档被编入库。大量的文档。

  

  然后,可以使用搜索引擎搜索filetype:文档格式+搜索关键字,如filetype:pdf入门教程,你会发现惊喜!

  如果你爬取其他文档,一年之内,单*敏*感*词*匹马建立一个拥有数百万文档的图书馆网站应该不成问题。

  积分函数

  用户登录、上传、分享文件,获得奖励积分;用户需要消耗积分才能下载文件

  阅读文档水印功能

  在提供阅读的 svg 文件上添加水印

  页面列表

  项目开源地址:

  PC端模板

  移动模板

  推荐文章:SEO优化之网站日志分析

  网站日志,相信这个词对于站长来说是耳熟能详的。大多数站长只了解网站日志的概念,而对网站日志分析一无所知。网站日志分析也是一个很重要的SEO话题,网站日志应该说每个站长都应该懂得分析,这是每个站长必备的技能。了解网站日志的分析方法,了解如何查看网站日志,可以参考文章:如何查看网站日志?我不会在这里解释它们。我们简单介绍一下网站的日志分析的内容和方法。

  

  要想知道网站日志文件收录什么,首先要知道各个搜索引擎的蜘蛛名称,比如百度蜘蛛是baiduspider,谷歌的机器人是Google-Googlebot等,在日志内容可以知道网站是哪个搜索引擎爬过的,他们的线索就留在这里了。从网站的日志可以看到蜘蛛的活跃度、亲和度、爬取深度等。网站搜索引擎更喜欢。单页爬取停留时间表示网站页面的访问速度。时间越长,网站的访问速度越慢,不利于搜索引擎抓取收录。我们应该尽力改进网页。加载速度,减少单页耗时,允许更多爬虫资源爬取收录。此外,您必须能够理解常见的 HTTP 状态码。最常见的HTTP状态码有200(页面爬取成功)、304(上次爬取和本次爬取没有变化)、404(页面未找到)、错误链接)500(服务器无响应,一般由server and failed, 打不开时出现网站),这些状态码是我们必须要理解的,server status code的值就是我们和蜘蛛通信的信号。通过网站日志,可以清楚的知道用户在什么IP下访问了你网站的哪个页面,什么时间,什么操作系统,什么浏览器,用什么分辨率的显示器,是否访问成功. 对于从事搜索引擎优化的专业人士,网站 日志分析可以记录每个搜索引擎蜘蛛机器人爬取的详细信息网站,例如:哪个IP蜘蛛机器人访问了网站多少次,访问了哪些页面,页面返回的HTTP状态码被访问。这些内容对我们来说非常重要,因为我们可以及时发现网站运营中的问题,及时解决这些问题,避免网站被降级甚至K站。

  

  很多站长朋友不知道如何使用和分析网站日志文件。当遇到网站收录问题或网站降级时,他们问别人而不考虑自己的原因。这就是做站长的悲哀。归根结底,希望站长朋友千万不要忽视网站日志分析。合理分析网站日志文件是站长或seoer必备的技能。此外,分析 网站 日志文件不需要您具备任何高级编码知识。其实只需要了解html代码和几个返回的状态码就可以了。网站 日志分析工具有很多。它也非常有用。爱站net的网站日志分析工具一直被小编使用。方法简单,分析结果一目了然。所以你一定不能偷懒,否则你不会有任何进步。如果你是一个小站长,或者你是一个seoer,如果你之前没有意识到网站日志分析的重要性,那么看完这篇文章我会好好对你的网站日志有。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线