内容采集系统(内容采集系统算法和自己做简单的js代码实现不一样)
优采云 发布时间: 2022-01-01 20:03内容采集系统(内容采集系统算法和自己做简单的js代码实现不一样)
内容采集系统算法和自己做简单的js代码实现不一样。要么是数据和你数据库冲突,要么是不支持多表,要么是你们有10个不同的渠道商户。各个渠道商户的商品基本也是要采集到自己数据库里的。所以直接用相应数据格式接口,比如谷歌的channel/来做采集,美团点评的js/来做爬虫。然后自己处理采集到的数据,再将各个数据接口的返回值导入mysql。不会用elasticsearch数据库,不建议开始采集数据。和采集系统的代码结合,然后分页。
你说的cms是啥?你这说的不完整啊,接入方式不同,需要的技术理论也不同。
建议联系专业提供采集云平台的公司,快速开发一个,基于apache的网站数据采集系统,比如天极采集,首页云采集,都比直接用代码实现的好,效率高,服务专业,很多互联网公司都是这样做的。比如站长之家,优采云票网站,
看到问题目标下有一堆cms,我想不出要回答哪一个。不过cms应该是框架。h2,magent,sinatra,我想各自有优缺点,取舍在于php程序员是否足够牛逼,体系足够完善,能够驾驭各种语言。
wordpress+elasticsearch可以做,hypertextrequest就好了,具体的网站技术架构应该和技术的关系比较大,
采集系统会有一个非常关键的部分:采集配置。基本上一个分布式采集系统首先是要为多个网站,每个网站的网页有数千上万,如果要一次性同时从每个网站上采集到全部网页信息,是比较困难的,因为分布式采集系统会由于访问次数过多,容易造成数据存储效率低。如果给网站配置独立的网络协议,比如openid,或者redis,redis集群将会提供更快的速度。
具体的架构我的看法如下:在采集之前设置网站所有信息的存储格式(一般是mongodb,json),再设置采集规则的格式。分布式采集系统的处理流程大概就是:采集成功->处理完成->服务器重试。当网站增加或者减少配置字段时,会重复第2步。采集数据存储在全局缓存服务器上,依据内容类型分散在不同节点的缓存服务器上。