建站系统采集器(建站系统采集器：chinadepository首先谢邀，我不知道你的每一个产品有多少个页面)

优采云发布时间: 2022-03-20 02:04

　　建站系统采集器：chinadepository

　　首先谢邀，我不知道你的每一个产品有多少个页面，如果只有三个页面，可以考虑js写三次采集，先将在上家查到的xx信息截取好，然后在根据时间后加载新页面，不管别人的数据是用html还是js写，这是省事的办法；没事可以学一下html5,了解一下nodejs；或者再没事在别人的信息页面抓取一些文章，在自己的需要的页面用这些文章做好爬虫，不管别人的数据是用html还是js写，这是省时间的办法；另外可以用php抓取api，抓取在自己的网站上。

　　我知道的暂时想起来这么多。没必要依赖别人的开源项目，相信很多项目会提供封装的api（自己抓取的是别人的页面，而抓取别人的页面，技术含量不大，最重要的是有多个页面的时候实现getpost的一体化，爬取实际上不麻烦。

　　我最近发现，现在大部分互联网公司的信息采集系统都是直接采用js封装页面，抓取代码一般是html+js代码，完成页面爬取。我目前在想，是否可以写个采集server呢，毕竟不是都有react和webpack吗，让这个server可以调用这些js代码，有没有不需要爬虫的同学来做呢？但是好像这个想法还是需要考虑到技术难度和复杂度，因为要实现前后端分离，还有版本统一。

　　直接抓数据库html不行吗？这个不用爬。

0

2022-03-20

建站系统采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

建站系统采集器(建站系统采集器：chinadepository首先谢邀，我不知道你的每一个产品有多少个页面)

0 个评论

发起人

AI时代内容工厂

建站系统采集器(建站系统采集器：chinadepository首先谢邀，我不知道你的每一个产品有多少个页面)

0 个评论

发起人

相关问题