解决方法:文章采集，请勿使用别的办法自行调用(图)

优采云发布时间: 2022-11-10 07:23

　　文章采集调用百度相关服务本文只介绍文章采集，请勿使用别的办法自行调用。自定义问题1.你知道百度知道问题集吗？qa/多图问题或问题集在哪里取？获取数据不能少了数据收集和转存2.百度问题收集端在哪里？网站获取收集端和服务端登录百度搜索config能看到如下页面服务端有两个post方法start和stop可以对接上下文消息提示函数用于status.post&notpageformparams存储登录状态等3.收集端请求服务端时post请求比较特殊要先经过https之后再返回网站assert原理https加密过程4.收集端string为主，sendto为辅比如，url中要带上xxx;yyy;zzz但是输入input也要登录然后get请求这里面method可以模糊匹配也可以直接https5.获取用户登录时的密码公钥存储在哪里的数据库？可以在本地存储然后自己拿过来改生成公钥6.返回每个页面的cookieaccesskey登录状态绑定的用户私钥存储服务端。

　　先获取本地web端sampled页面的一些基本信息，比如需要抓取哪些页面、问题总量、问题加载时间等等。然后登录百度，注册相关账号，开始抓取。我也是刚开始接触爬虫，刚接触，

　　百度api-百度站长平台即可先抓取再注册别人账号获取问题集

　　如何获取百度知道上的问题集？答：如果问题加载时间很久，还可以从baiduspider中抓取url过来，也有baiduspider.proxy的，两个协议的话都能抓。然后不通过浏览器，自己抓数据，我用的是openinstall，它可以抓取淘宝的数据，访问的时候跳转到那个页面就抓取哪个，不依赖任何浏览器。主要是想知道内容，百度知道挺长的。至于在哪儿抓取我不知道，我还没上手，所以不好回答。

0

2022-11-10

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方法:文章采集，请勿使用别的办法自行调用(图)

0 个评论

发起人

AI时代内容工厂

解决方法:文章采集，请勿使用别的办法自行调用(图)

0 个评论

发起人

相关问题