关键句采集 原创(王阳明心学去实践做一件网站:句子酷实现的难点)

优采云 发布时间: 2021-12-30 19:17

  关键句采集 原创(王阳明心学去实践做一件网站:句子酷实现的难点)

  (前言:这是我人生中的一次尝试,我用王阳明的心去练习做事,验证自己做事的能力。我做的就是做网站:酷句子,目标是做最专业的句子在中国搜索网站;我每天都会记录一些练习,无论最终结果如何,我相信整个经历对我这一生都会受益匪浅,至少每天都会清楚。)

  【功能要求】

  句子图片功能:根据句子内容自动生成相应图片并显示。

  【实现方案】

  

  根据句子内容提取关键词,然后根据句子关键词匹配图像索引服务关键词的图像特征,返回匹配结果最接近的图像数据。

  实现的难点在于:

  1、如何搭建图片索引服务器?

  其实就是采集

图片数据的问题。实现的难度其实没那么大,就是日常维护任务比较多,而且这个维护工作基本可以消耗掉大部分时间,基本不需要做其他的事情。需要具有高度自动化和低维护成本的采集

程序。另外,现有的句子内容采集程序的维护成本很高,每天都要花一些时间来检查工作是否正常,而且非常耗能。

  2、图片存储问题?

  如果申请CDN服务器,图片数量增加,服务器成本会更高,不符合目前的实际情况;暂时的打算是直接存储URL地址,不下载图片。

  下一步的主要考虑因素:

  用于自动化程度高、维护成本低的数据采集程序。其实有很大的使用价值,一个好的数据采集程序可能比网站本身更有价值。值得花时间和精力把这个功能做好,好用,好用。这几天一直在思考这个问题,越想越有必要。

  今日头条是怎么起来的?是否依赖原创内容?不,它依赖于大数据的处理。通过大数据处理和用户行为分析,精准推荐给用户。它可以留住和吸引用户。只有具备了实力,才能开始搭建原创平台。毕竟,数据采集

也是一种数据处理。有一个自动化程序比较高的数据处理平台,对于实现后续语句酷功能的开发是非常有必要的。

  一个好的数据处理平台,必须满足:

  1、 框架方便自定义数据处理方式:抓取、群发、采集、数据转换、数据发布、下载任务;

  2、支持多种脚本语言编写处理程序:js、kotlin、scart;

  3、 分布式/多终端处理:可以将写入的数据程序提交给其他空闲终端执行。例如:PC端、手机端、服务器端。

  4、 支持浏览器操作,支持proxy、cookies、ajax、多种浏览器类型对象;从而实现网络内容采集、海量发布、

  5、支持手机操作;

  6、 支持数据的存储;

  这个想法还不成熟,所以现在考虑一下。

  另外,在微信小程序搜索栏中输入:句子,句子酷小程序排名第一!!!

  

  图片来自简书App

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线