免费的文章采集器(优采云采集没去管的方法和方法)

优采云 发布时间: 2022-04-18 19:28

  免费的文章采集器(优采云采集没去管的方法和方法)

  我一直在用优采云采集和dedecms免登录界面填写网站的内容,但是从来没有挑战过采集的链接超过10w篇文章。在最初的几天里,我自己找到了一个目标站点。在我弄清楚 采集 规则后,我离开了服务器,让 优采云采集 忽略它。结果,我获得了超过 600,000 个 文章 数量。想着全部捡起来,慢慢贴吧。

  

  图像.png

  结果,前10000或20000个帖子的速度还可以,但后来越来越慢。发一个文章花了十多秒,我受不了了,发了23个小时1.5w 还没到。估计要40多天才能完成!!!

  

  001.png

  我决心彻底解决这个问题。在百度上搜索无果后,我不得不自己研究它。我先关闭了所有影响dede后台性能的设置,但还是没有改善。然后我把目标转到发布界面,关闭了自动汇总和自动关键词相关设置,但还是没有变化。只是挠头。

  想了想,还是老老实实的跟随着发布流程,看看慢在哪里。我模拟了优采云的发布请求,用postman测试了一下。发现在发布界面前面处理文章不影响速度,但是在最终发布时却很慢。怀疑是操作数据库放慢了整体。我去mysql,看到有慢日志出现。

  

  003.png

  这句话有点眼熟,尤其是哪个rand()。后来想起来,为了测试前端模板,文章页面检索了相关的文章,在全站随机写了检索文章。快点改成按点击排序。再次释放,终于看到了速度的提升。

  

  002.png

  看来还是对dede底层逻辑不熟悉造成的。对于大量的采集,需要对文章页面进行随机抓取,或者从整个站点抓取,以减少数据库读取。操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线