内容采集系统(内容采集系统算法和自己做简单的js代码实现不一样)

优采云发布时间: 2022-01-01 20:03

　　内容采集系统算法和自己做简单的js代码实现不一样。要么是数据和你数据库冲突，要么是不支持多表，要么是你们有10个不同的渠道商户。各个渠道商户的商品基本也是要采集到自己数据库里的。所以直接用相应数据格式接口，比如谷歌的channel/来做采集，美团点评的js/来做爬虫。然后自己处理采集到的数据，再将各个数据接口的返回值导入mysql。不会用elasticsearch数据库，不建议开始采集数据。和采集系统的代码结合，然后分页。

　　你说的cms是啥？你这说的不完整啊，接入方式不同，需要的技术理论也不同。

　　建议联系专业提供采集云平台的公司，快速开发一个，基于apache的网站数据采集系统，比如天极采集，首页云采集，都比直接用代码实现的好，效率高，服务专业，很多互联网公司都是这样做的。比如站长之家，优采云票网站，

　　看到问题目标下有一堆cms，我想不出要回答哪一个。不过cms应该是框架。h2，magent，sinatra，我想各自有优缺点，取舍在于php程序员是否足够牛逼，体系足够完善，能够驾驭各种语言。

　　wordpress+elasticsearch可以做，hypertextrequest就好了，具体的网站技术架构应该和技术的关系比较大，

　　采集系统会有一个非常关键的部分：采集配置。基本上一个分布式采集系统首先是要为多个网站，每个网站的网页有数千上万，如果要一次性同时从每个网站上采集到全部网页信息，是比较困难的，因为分布式采集系统会由于访问次数过多，容易造成数据存储效率低。如果给网站配置独立的网络协议，比如openid，或者redis，redis集群将会提供更快的速度。

　　具体的架构我的看法如下：在采集之前设置网站所有信息的存储格式（一般是mongodb，json），再设置采集规则的格式。分布式采集系统的处理流程大概就是：采集成功->处理完成->服务器重试。当网站增加或者减少配置字段时，会重复第2步。采集数据存储在全局缓存服务器上，依据内容类型分散在不同节点的缓存服务器上。

0

2022-01-01

内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集系统(内容采集系统算法和自己做简单的js代码实现不一样)

0 个评论

发起人

AI时代内容工厂

内容采集系统(内容采集系统算法和自己做简单的js代码实现不一样)

0 个评论

发起人

相关问题