解决方案:Python关键词百度指数采集,抓包Cookie及json数据处理
优采云 发布时间: 2022-10-25 21:22解决方案:Python关键词百度指数采集,抓包Cookie及json数据处理
很多网站数据结构使用Json格式,所以遇到这种格式的数据时,很难用普通的采集规则完善采集,所以优采云采集器V9还提供了Json采集的功能。今天给大家介绍一下Json的作用以及Json工具采集的数据怎么传。
这里主要介绍Json,所以找了一个Json格式的网页,里面只介绍了Json格式的采集的功能,其他的略过,所以我也直接把Json格式的数据的URL作为内容页面,请看下面的详细说明。
我们要采集的数据在网页上是这样显示的,如下图:
我们想要采集表单中的数据,发现网页的源码中并没有这样的数据。我们可以通过抓包来获取数据URL:(这里说的是Json,不是怎么抓包的)
打开网址,我们发现数据是这样的,如下图:
从上图,老司机可能觉得这也能通过正常规则采集,没错,上面的部分内容确实可以通过正常规则采集,不过大家注意了,保证描述、保证金额等都是没有办法采集的,其实懂的人一眼就能看出这是一个Json格式的数据。不知道人家怎么办?没关系,如果遇到和这个格式类似的数据,我们先假设是Json,然后用优采云采集器的Json工具看看能不能读取到数据. 下面介绍优采云采集器如何使用Json工具来采集。
首先看上图,在内容标签采集设置中,我们选择JSON提取,可以看到JSON工具,我们点击,出现下图:
参考上图,点击选择按钮,然后选择URL(这里只介绍URL的类型),然后输入上面的URL,点击OK,如果能出现下图,这样的目录结构,那么一定是 Json 格式
我们继续,默认一切都是关闭的,我们需要点击它,然后一个一个看,直到找到你想要的数据,数据一般在数据中,如上图,文字desc 中的信息就是我们想要的,一共有 16 条数据,每条都是必填的。上图右下角提示按Ctrl选择多个节点获取多条数据。在这里,我告诉你,不管有多少条数据,如果你想获得多条数据,你不需要每条数据。两个都点,点两个就行了,可以看到上图JSON表达式最后一个[]里面的值变成了星号,代表多条数据采集。就是这样,我们可以保存它,然后以此类推,
经过测试,完美的采集来了。顺便说一句,如果有多个数据,应该建立一个循环。赶紧试试Json工具
解决方案:php采集内容,PHP如何采集指定的内容
使用PHP程序如何采集指定区域的内容,今天我们用一个简单的案例来说明。
本案为采集新浪新浪首页新闻。php程序用于抓取相关标题。下图是抓取的效果:
我实现 采集 的过程是这样的:
需要用到php的file_get_contents、preg_match等函数。
$file=file_get_contents('#39;);
preg_match('/
([\s\S]*)/',$file,$head);
print_r($head[0]);
回声'
';
preg_match('/
([\s\S]*)
/',$file,$body);
print_r($body[1]);
回声'';
回声'
';
看到没有,只是简单的几步就可以实现PHP采集的效果。如果对样式不满意,可以自行修改。
总结:
1、我们使用preg_match来匹配要抓取的模块的div,然后输出。
2.这个例子比较简单。当遇到稍微复杂的需求时,我会告诉你一个调整模式的好方法。
比如上面的例子,如果想看head部分输出什么,可以使用htmlspecialchars函数防止转义:htmlspecialchars($head[0]),这样输出就是正则的代码配套头段,方便您观看和调音。
免责声明:如需转载,请注明出处并保留原文链接: