解决方案:免费采集器的工作原理基本上就是,你去网站抓包,抓到对应的源代码

优采云 发布时间: 2022-11-10 19:25

  解决方案:免费采集器的工作原理基本上就是,你去网站抓包,抓到对应的源代码

  免费采集器的工作原理基本上就是,你去网站抓包,抓到对应的源代码,再根据程序里预设的逻辑用程序编写的样式把那些文字框,元素之类的放在页面上。好一点的做法是,程序先把所有源代码全部下载到本地电脑,再用百度去抓取,匹配的时候会自动去除多余的换行符,不然有可能会抓到冗余的文字。然后再把匹配出来的文字转换成意思相近的文字。

  

  主要是上传图片的时候,无法保证正确的上传顺序,导致无法判断到底哪个图片是哪个。详细做法是先构建索引再上传图片,这样错一张图片所有索引都将丢失。再加上百度抓取的时候图片的格式是网页编码方式,程序需要先转换一下,才能识别是gif还是jpg或者是png。

  -spy-baidu-formidx里是参数值

  

  我一直不明白的是:网站拿到源代码之后转换成pdf格式之后,图片我要是一张张地转化真的很麻烦的,无奈百度就是一搞flash就自动帮我做了,结果pdf要是网页文件里的图片文件比较大,百度就会这样搜,把图片全都抓下来,要是有人说flash没有抓到的,我就好吧,

  曾经同样遇到过同样的问题,刚好有好几个问题在里面:比如登录之后,站内查询显示成图片,但是登录失败,打开我的知乎主页显示是pdf;自动上传的swf时间是24小时,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线