php抓取网页数据插入数据库(初学者-PHP-抓取-数据库-前面的设计问题:初学者)

优采云 发布时间: 2022-01-23 05:01

  php抓取网页数据插入数据库(初学者-PHP-抓取-数据库-前面的设计问题:初学者)

  初学者 - PHP - 爬网 - 数据库 - 前端设计问题:

  我构建了一个 PHP 脚本来从 网站 中抓取(使用 curl)文章,我对其进行样式化并添加了 html 标签以使其易于显示,并通过 cPanel 上传到共享主机。

  抓取是使用 php 函数 curl 和 preg_match_all 完成的。每个爬取的页面有 17 篇文章 文章,所以如果我爬取 100 个页面,就有 170 篇文章 文章。我只抓取 文章 标题、URL、文章 摘要和发布日期,因此每个 文章 没有那么多信息(不是内容)。

  我的 网站 显示 文章 标题(链接到原创来源)和 文章 摘要。我还使用 文章 发布日期作为我提取的字符串,我按月块(2019 年 12 月、2019 年 11 月等)解析和显示 文章。

  网站 的加载时间很糟糕。每次打开网站,脚本都会爬100页,耗时不少。即使将要爬取的页面数量减少到 30 个,加载时间也很长。

  现在,作为一个没有经验的开发人员,我正在处理的问题是如何为此设计一个解决方案,我最终可以在我的共享主机中实现(不像 VPS 在我拥有的控制量上......)

  第一个想法是我应该将抓取的数据存储在 mysql 数据库中并定期更新(使用 cron 作业?)?

  初学者可以/应该在这里实施的解决方案的正确设计流程是什么?

  会不会是这样:

  第一次抓取数据并存储在数据库中。编写一个脚本以每天(或更多)从第一页只采集新的 文章 而不会创建重复项(可能需要将标题字符串与最后一个 DB 输入进行比较,直到类似于标题字符串 1 = = content of标题字符串 2,然后停止插入数据库)。

  您的想法和建议将不胜感激。顺便说一句,我目前也在尝试更专业地在 Laravel 中重做 网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线