文章在线采集功能的建站系统(好比图片站点,Pinterest、花瓣网等还不是做起来了吗?)

优采云 发布时间: 2022-03-13 14:12

  文章在线采集功能的建站系统(好比图片站点,Pinterest、花瓣网等还不是做起来了吗?)

  最近看到一个类似于百度文库的开源库系统。它可以用来构建和运行你自己的库网站。

  虽然百度图书馆等综合性图书馆网站已经建立,但是如果你打算做综合性图书馆网站,仍然不现实,因为空间太小。

  但是,如果专注于某个方向的图书馆网站,比如课后练习答案库网站、IT行业图书馆网站、教育图书馆网站等,专注于一个行业领域,空间还是很大的为了成长。和图片网站一样,现在很多搜索引擎都可以搜索图片,但是Pinterest、Petalnet等还没有做到吗?

  主要技术栈

  后端:Go语言框架Beego

  前端:基于Bootstrap的前端框架Flat-UI

  数据库:MySQL,数据存储

  依赖环境:Libreoffice(或Openoffice),用于将office文档转换为PDF

  pdf2svg,用于将 PDF 转换为 svg 矢量图像以供阅读。

  calibre,用于将mobi、chm、epub等文档转为PDF,再将pdf转为svg

  阿里云OSS,存储office文档、PDF文档、svg等文件

  特色文档在线阅读

  DocHub库使用svg矢量图来实现文档阅读体验。在我所知道的图书馆网站中,新浪艾问通过png等图片提供文档阅读体验。

  与png、jpeg等图片格式相比,SVG有很大的优势,至少放大后不会变形,而且相比JPEG、GIF图片,svg体积更小,压缩性更强。DocHub通过gzip压缩svg文件,一般情况下可以减少70%的文件大小,比如200kb svg,gzip压缩后只有60kb左右。

  使用 svg 大大提高了加载速度,优化了内容的阅读体验。

  可在线阅读的办公文档

  这需要两层转换:

  office --> pdf --> svg

  

  在线阅读PDF文档

  通过pdf2svg转换PDF文档进行在线阅读

  mobi、epub、chm文档在线阅读

  使用 calibre 将文档转换为 PDF,然后将 pdf 转换为 svg。

  全部研究

  全文搜索功能之前是用coreseek开发实现的,现在coreseek的官网已经停掉了……打算用elasticsearch重新实现这个功能。

  文档采集功能【TODO】

  在建站初期,网站内容的填充是一个很大的难点。

  不过在GitBook、ReadTheDoc等网站上,有大量的开源技术文档,提供mobi、pdf、epub离线文档下载。

  据初步统计,GitBook 中有超过 100,000 个文档,估计可用文档数为 50,000。每个文档提供 3 种格式的下载。仅从 gitbook采集 文档中,就有 150,000 个文档被编入库。大量的文档。

  然后,可以使用搜索引擎搜索filetype:文档格式+搜索关键字,如filetype:pdf入门教程,你会发现惊喜!

  如果你爬取其他文档,一年之内,单*敏*感*词*匹马建立一个拥有数百万文档的图书馆网站应该不成问题。

  积分函数

  用户登录、上传、分享文件,获得奖励积分;用户需要消耗积分才能下载文件

  阅读文档水印功能

  在提供阅读的 svg 文件上添加水印

  页面列表

  

  

  

  

  

  项目开源地址:

  PC端模板

  移动模板

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线