文章采集调用(美团外卖商家的爬虫分析过程,最终结果还没有出来)
优采云 发布时间: 2021-12-16 21:04文章采集调用(美团外卖商家的爬虫分析过程,最终结果还没有出来)
嗯,不是失败,只是记录了爬虫分析的过程采集,最终结果还没出来。
简单描述一下美团外卖商家的爬虫分析过程,结果不理想,可以通过调用JS实现。
一开始,我直接选择了美团的网页版,选择一个地方,进入外卖商家列表。
这时候直接开始写JAVA Jsoup代码,把所有的请求头和请求参数都放到请求的代码中,结果只有一个返回:
{"数据":{"customer_ip":"61.135.15.2"},"code":200100,"msg":""}
也就是说,没有得到任何数据,此时我也不知道接下来要做什么。于是在网上搜索了美团外卖爬虫。这里有一点,如果你是美团商户采集,就是那种可以遍历全网的。可以获得该商家数据。但是如果是外卖,就得单独做采集。
当然,在网页采集的不利情况下,我也查了美团APP的外卖链接:参数太多了,启动不了,然后从网页文章开始搜索@>
终于找到一篇文章@>:这篇文章提供了一个思路。你可以先看看这个文章@>。
首先分析美团H5页面上的数据
结合CSDN文章文章@>,也就是说只要知道token的生成方法,然后通过参数调用这个方法来获取token,当然这篇文章文章@>也有一点提示,但仅此而已,刚刚介绍了如何直接调用JS代码。你仍然需要自己做才能获得足够的食物和衣服。
接下来我们应该分析一下token是如何产生的?我也在网上搜索了很多文章@>,也有一些提示。这是一个很长的文章@>。不注意的话真的很糟糕。
这时候直接进入H5页面,先找到js文件。我们不能直接使用文章中的js,因为有可能js已经升级了,所以我们找最新版本的js文件。
这时候我已经验证了破解网上文章@>那篇文章所说的内容,接下来我们在原h5页面上搜索Rohr_Opt这个词。
既然不一样了,就得看看美团外卖页面列表是怎么调用这个reload方法的,继续搜索Rohr_Opt。因为是全局的,所以调用的时候会直接用这个名字来调用。注意此时的搜索不是在查看源码中搜索,而是在调试页面的源码中搜索。毕竟,它现在处于运行时状态。恭喜:
我们把红框中的代码复制一下,分析一下代码结构,看看能出现什么样的结果。
现在我们已经确定了 t+p,用 test.html 测试一下:
到此为止,我们继续观察这个reload是怎么实现的,里面有什么,为什么同样的参数刷新不同。打开min.js文件,直接搜索reload:
这个时间戳就这样一直存在,搜索没有找到用处,作为一个对象的内部字段,它应该已经被使用了。
分析完这个,我们来测试一下JAVA调用JS的技术。但这部分事情还没有弄清楚!如果有人修复它,请告诉我。复制一个简单的调用代码:
参考链接