解决方案:内容采集系统的外挂问题,这样导致到达后期采集的内容
优采云 发布时间: 2022-11-08 17:18解决方案:内容采集系统的外挂问题,这样导致到达后期采集的内容
内容采集系统的外挂问题,这样导致到达后期采集的内容又直接是知乎的原始页面,造成了信息质量下降。建议优化单条任务任务完成时间,可以直接到达采集页面的全部时间,或者可以设置单条任务完成的中途不能使用采集工具,强制完成别的任务。
使用csv格式存储数据,将采集过程变成csv格式文件,统一存放到api统一服务器,完成一个任务就下载当前页面的数据,不通过web工具即可达到同样的效果,前端页面使用采集器获取数据,后端存放一个数据库,对数据库中取出的数据做合并即可。
转专业计算机,
内容采集系统的质量很多问题,就比如,发过来的数据里存在莫名其妙的xxxx万个xxxx,这让人难以判断内容是否合法,存在数据降权等问题。没有人使用最有用的知识发出来,所以不管怎么做都是不稳定的。关于外挂,你是指xx程序吗?如果是xx程序的话,第一没有成本,第二很多技术已经在解决这些问题了,xx程序没有必要去开发和维护,第三有的程序如果不是直接对xx程序,或者服务器做调用,基本是不会有任何作用。
可以参考中国科学院和中国红十字会官方网站。
受限于带宽和多线程限制。采到的数据都是有xxx个xxxx。例如,博主可以采到一个网页“吃xxxx”,博主可以自己截图。最大只能有10w的数据量。采一个小网页一次需要采150w+。