自动采集编写(如何应对PHP程序代码很烂的采集者麻烦?-八维教育)

优采云 发布时间: 2022-03-25 11:14

  自动采集编写(如何应对PHP程序代码很烂的采集者麻烦?-八维教育)

  对于我们这种数据量很大的网站,我们面临的一个麻烦就是总是有人来采集。过去,我们使用人工检查和屏蔽的方法。这种方法很有效,但是太费力了。前段时间也发现了一个插件,可以自动限制最大连接数,但是存在误屏蔽搜索引擎的问题。最近,老人决定自己写一个程序来消灭所有这些采集人。虽然编程麻烦,但效果不错。

  思路是将PHP程序代码嵌入Drupal的模板文件中,读取$_SERVER参数并记录在数据库中,通过判断参数和访问频率来判断访问者是否应该提交验证码。验证码错误或未填写次数过多会被屏蔽。您可以使用主机反向 DNS 查找来识别常见的搜索引擎。

  这个程序还是有点复杂。过去,修改开源PHP程序是直接完成的。这个程序还写了一个流程图,数据库表结构也是自己规划的。为了避免变慢,在 MySQL 中使用了 Memory 引擎,这主要是临时性的。访问记录就足够了。该程序写得非常糟糕,以至于它不会收录在博客中。

  这个程序anti-scraping.php,上周调试了几天,这周才投入试用。您已经可以从日志中看到效果。需要持续改进,比如添加黑名单、白名单,尝试使用Drupal标准的第三方模块。方式等。因为补全是自己编程实现的,所以可以对各种采集用户进行各种修改标准和屏蔽方法的尝试。

  版本历史:

  待办事项清单:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线