软文采集器(优采云中的“变量”进行替换并给定值范围的采集)
优采云 发布时间: 2021-09-03 12:02软文采集器(优采云中的“变量”进行替换并给定值范围的采集)
简介:什么是帖子获取列表?一般使用ajax或者.NET中的一些技术。当您请求新内容时,页面只是部分刷新,地址栏中的 URL 保持不变。我们在处理这种采集的时候的思路是使用抓包工具截取请求过程中提交的内容,找出共同特征,替换为优采云中的“分页”变量,并给出取值范围,所以优采云采集会自动提交请求的内容,为采集获取新的内容列表。 Yuguo Tianqing 的工作室在这里重点讲一下如何抓包,抓哪些包,并对抓包得到的数据进行处理。内容的采集和普通页面一样
采集优采云采集器采集post 分页列表教程
什么是获取列表的帖子?它一般使用 ajax 或 .NET 中的一些技术。当您请求新内容时,页面只是部分刷新,地址栏中的 URL 保持不变。我们在处理这种采集时的思路是使用抓包工具截取请求过程中提交的内容,找出共同特征,替换为优采云中的“分页”变量,并给出取值范围,所以优采云采集会自动提交请求的内容,为采集获取新的内容列表。 Yuguo Tianqing 的工作室在这里重点讲一下如何抓包,抓哪些包,并对抓包得到的数据进行处理。内容的采集和普通页面一样,这里就不多说了。
工具/材料
方法/步骤
1
首先下载抓包工具:WSExplorer(由于被归类为黑客软件,在某些杀毒软件下可能存在误报。)下载链接由站长朋友提供:
2
我们使用浏览器打开您要抓取的页面,
翻页的时候会发现这个页面提交了一个帖子来翻页请求。
标题如图所示
3
下面打开你下载WSockExpert,界面如下
4
选择您使用的浏览器。我用的是2345浏览器。里面有三个进程。最底层的是我们想要的流程。单击它并找到下一行,您的“POST”通常遵循此操作。或者前一行是POST数据,也就是我们说的抓包的内容。
5
从浏览器打开您想要获取的页面,然后多次单击下一页。你会发现WSockExpert中获取到的数据又发生了变化,就是POST数据,也就是抓包的内容。
6
点击POST上方的那一行,会出现下图,可以看到下方有文字,鼠标向右移动将二进制文字复制过去
7
你把这2个或3个内容复制到记事本里,对了,你会发现有点不一样,看截图,
8
用优采云中的[page]变量替换我在抓包数据中标注的地方,将整个代码复制到优采云,如下图
9