分享文章:【源码分享】给你一个开源文库网站

优采云发布时间: 2022-11-01 02:26

　　最近看到一个类似于百度文库的开源库系统。它可以用来构建和运行你自己的库网站。

　　虽然百度图书馆等综合性图书馆网站已经建立，但是如果你打算做一个综合性图书馆网站，还是不现实的，因为空间太小了。

　　但是，如果专注于某个方向的图书馆网站，比如课后练习答案库网站、IT行业图书馆网站、教育图书馆网站等，专注于一个行业领域，空间还是很大的为了成长。和图片网站一样，现在很多搜索引擎都可以搜索图片，但是Pinterest、Petalnet等还没有做到吗？

　　主要技术栈

　　后端：Go语言框架Beego

　　前端：基于Bootstrap的前端框架Flat-UI

　　数据库：MySQL，数据存储

　　依赖环境：Libreoffice（或Openoffice），用于将office文档转换为PDF

　　pdf2svg，用于将 PDF 转换为 svg 矢量图像以供阅读。

　　calibre，用于将mobi、chm、epub等文档转为PDF，再将pdf转为svg

　　阿里云OSS，存储office文档、PDF文档、svg等文件

　　特色文档在线阅读

　　DocHub库使用svg矢量图来实现文档阅读体验。在我所知道的图书馆网站中，新浪艾问通过png等图片提供文档阅读体验。

　　与png、jpeg等图片格式相比，SVG有很大的优势，至少放大后不会变形，而且相比JPEG、GIF图片，svg体积更小，压缩性更强。DocHub通过gzip压缩svg文件，一般情况下可以减少70%的文件大小，比如200kb svg，gzip压缩后只有60kb左右。

　　使用 svg 大大提高了加载速度，优化了内容的阅读体验。

　　可在线阅读的办公文档

　　这需要两层转换：

　　office --> pdf --> svg

　　在线阅读PDF文档

　　通过pdf2svg转换PDF文档进行在线阅读

　　mobi、epub、chm文档在线阅读

　　使用 calibre 将文档转换为 PDF，然后将 pdf 转换为 svg。

　　全部研究

　　全文搜索功能之前是用coreseek开发实现的，现在coreseek的官网已经停掉了……打算用elasticsearch重新实现这个功能。

　　文档采集功能【TODO】

　　在建站初期，网站内容的填充是一个很大的难点。

　　不过在GitBook、ReadTheDoc等网站上，有大量的开源技术文档，提供mobi、pdf、epub离线文档下载。

　　据初步统计，GitBook 中有超过 100,000 个文档，估计可用文档数为 50,000。每个文档提供 3 种格式的下载。仅从 gitbook采集文档中，就有 150,000 个文档被编入库。大量的文档。

　　然后，可以使用搜索引擎搜索filetype：文档格式+搜索关键字，如filetype：pdf入门教程，你会发现惊喜！

　　如果你爬取其他文档，一年之内，单*敏*感*词*匹马建立一个拥有数百万文档的图书馆网站应该不成问题。

　　积分函数

　　用户登录、上传、分享文件，获得奖励积分；用户需要消耗积分才能下载文件

　　阅读文档水印功能

　　在提供阅读的 svg 文件上添加水印

　　页面列表

　　项目开源地址：

　　PC端模板

　　移动模板

　　推荐文章:SEO优化之网站日志分析

　　网站日志，相信这个词对于站长来说是耳熟能详的。大多数站长只了解网站日志的概念，而对网站日志分析一无所知。网站日志分析也是一个很重要的SEO话题，网站日志应该说每个站长都应该懂得分析，这是每个站长必备的技能。了解网站日志的分析方法，了解如何查看网站日志，可以参考文章：如何查看网站日志？我不会在这里解释它们。我们简单介绍一下网站的日志分析的内容和方法。

　　要想知道网站日志文件收录什么，首先要知道各个搜索引擎的蜘蛛名称，比如百度蜘蛛是baiduspider，谷歌的机器人是Google-Googlebot等，在日志内容可以知道网站是哪个搜索引擎爬过的，他们的线索就留在这里了。从网站的日志可以看到蜘蛛的活跃度、亲和度、爬取深度等。网站搜索引擎更喜欢。单页爬取停留时间表示网站页面的访问速度。时间越长，网站的访问速度越慢，不利于搜索引擎抓取收录。我们应该尽力改进网页。加载速度，减少单页耗时，允许更多爬虫资源爬取收录。此外，您必须能够理解常见的 HTTP 状态码。最常见的HTTP状态码有200（页面爬取成功）、304（上次爬取和本次爬取没有变化）、404（页面未找到）、错误链接）500（服务器无响应，一般由server and failed, 打不开时出现网站），这些状态码是我们必须要理解的，server status code的值就是我们和蜘蛛通信的信号。通过网站日志，可以清楚的知道用户在什么IP下访问了你网站的哪个页面，什么时间，什么操作系统，什么浏览器，用什么分辨率的显示器，是否访问成功. 对于从事搜索引擎优化的专业人士，网站日志分析可以记录每个搜索引擎蜘蛛机器人爬取的详细信息网站，例如：哪个IP蜘蛛机器人访问了网站多少次，访问了哪些页面，页面返回的HTTP状态码被访问。这些内容对我们来说非常重要，因为我们可以及时发现网站运营中的问题，及时解决这些问题，避免网站被降级甚至K站。

　　很多站长朋友不知道如何使用和分析网站日志文件。当遇到网站收录问题或网站降级时，他们问别人而不考虑自己的原因。这就是做站长的悲哀。归根结底，希望站长朋友千万不要忽视网站日志分析。合理分析网站日志文件是站长或seoer必备的技能。此外，分析网站日志文件不需要您具备任何高级编码知识。其实只需要了解html代码和几个返回的状态码就可以了。网站日志分析工具有很多。它也非常有用。爱站net的网站日志分析工具一直被小编使用。方法简单，分析结果一目了然。所以你一定不能偷懒，否则你不会有任何进步。如果你是一个小站长，或者你是一个seoer，如果你之前没有意识到网站日志分析的重要性，那么看完这篇文章我会好好对你的网站日志有。

0

2022-11-01

全自动文章采集网源码2020

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享文章:【源码分享】给你一个开源文库网站

0 个评论

发起人

AI时代内容工厂

分享文章:【源码分享】给你一个开源文库网站

0 个评论

发起人

相关问题