文章在线采集功能的建站系统(好比图片站点,Pinterest、花瓣网等还不是做起来了吗?)
优采云 发布时间: 2022-03-13 14:12文章在线采集功能的建站系统(好比图片站点,Pinterest、花瓣网等还不是做起来了吗?)
最近看到一个类似于百度文库的开源库系统。它可以用来构建和运行你自己的库网站。
虽然百度图书馆等综合性图书馆网站已经建立,但是如果你打算做综合性图书馆网站,仍然不现实,因为空间太小。
但是,如果专注于某个方向的图书馆网站,比如课后练习答案库网站、IT行业图书馆网站、教育图书馆网站等,专注于一个行业领域,空间还是很大的为了成长。和图片网站一样,现在很多搜索引擎都可以搜索图片,但是Pinterest、Petalnet等还没有做到吗?
主要技术栈
后端:Go语言框架Beego
前端:基于Bootstrap的前端框架Flat-UI
数据库:MySQL,数据存储
依赖环境:Libreoffice(或Openoffice),用于将office文档转换为PDF
pdf2svg,用于将 PDF 转换为 svg 矢量图像以供阅读。
calibre,用于将mobi、chm、epub等文档转为PDF,再将pdf转为svg
阿里云OSS,存储office文档、PDF文档、svg等文件
特色文档在线阅读
DocHub库使用svg矢量图来实现文档阅读体验。在我所知道的图书馆网站中,新浪艾问通过png等图片提供文档阅读体验。
与png、jpeg等图片格式相比,SVG有很大的优势,至少放大后不会变形,而且相比JPEG、GIF图片,svg体积更小,压缩性更强。DocHub通过gzip压缩svg文件,一般情况下可以减少70%的文件大小,比如200kb svg,gzip压缩后只有60kb左右。
使用 svg 大大提高了加载速度,优化了内容的阅读体验。
可在线阅读的办公文档
这需要两层转换:
office --> pdf --> svg
在线阅读PDF文档
通过pdf2svg转换PDF文档进行在线阅读
mobi、epub、chm文档在线阅读
使用 calibre 将文档转换为 PDF,然后将 pdf 转换为 svg。
全部研究
全文搜索功能之前是用coreseek开发实现的,现在coreseek的官网已经停掉了……打算用elasticsearch重新实现这个功能。
文档采集功能【TODO】
在建站初期,网站内容的填充是一个很大的难点。
不过在GitBook、ReadTheDoc等网站上,有大量的开源技术文档,提供mobi、pdf、epub离线文档下载。
据初步统计,GitBook 中有超过 100,000 个文档,估计可用文档数为 50,000。每个文档提供 3 种格式的下载。仅从 gitbook采集 文档中,就有 150,000 个文档被编入库。大量的文档。
然后,可以使用搜索引擎搜索filetype:文档格式+搜索关键字,如filetype:pdf入门教程,你会发现惊喜!
如果你爬取其他文档,一年之内,单*敏*感*词*匹马建立一个拥有数百万文档的图书馆网站应该不成问题。
积分函数
用户登录、上传、分享文件,获得奖励积分;用户需要消耗积分才能下载文件
阅读文档水印功能
在提供阅读的 svg 文件上添加水印
页面列表
项目开源地址:
PC端模板
移动模板