实时抓取网页数据(【*敏*感*词*】如何成为一个有意思的人?(上))

优采云 发布时间: 2021-09-20 18:37

  实时抓取网页数据(【*敏*感*词*】如何成为一个有意思的人?(上))

  .打开“GET”,SURL,False

  .发送

  'tt=.responseBody

  tt=.responseText

  'tt=StrConv(.responsebody,vbUnicode)

  以

  如果仪表(tt,“Sheet1.Cells(i,13)=Split(Split)(拆分)(tt,“”)(0),“>”)(1)

  否则

  Sheet1.Cells(i,13)=“-”

  如果结束

  如果仪表(TT“”),则“获取标题”

  Sheet1.Cells(i,14)=阀内件(更换(分体式)(分体式)(tt,“”(1),“”(0),vbLf,“”)))

  否则

  Sheet1.Cells(i,14)=“-”

  如果结束

  如果instr(TT,“”),则“获取注释”

  Sheet1.Cells(i,15)拆分(拆分)(拆分)(tt,“”(1),“”(0),“”)(0)

  否则

  Sheet1.Cells(i,15)@=0

  如果结束

  如果仪表(tt,“Sheet1.Cells(i,16)拆分(拆分)(拆分)(拆分)(tt)(0),“title=”)(1)),”)(0)

  否则

  Sheet1.Cells(i,16)@=0

  如果结束

  如果仪表(tt,“Sheet1.Cells(i,17)=拆分(替换拆分)(拆分)(拆分(拆分)(拆分)(拆分)(拆分)(拆分)(tt,“”(0),“”(1),vbLf,“”)))(0)

  否则

  Sheet1.Cells(i,17)=0

  如果结束

  如果仪表(tt,“Sheet1.Cells(i,18)=Split(Split)(拆分)(tt,“”)(0),“>”)(1)

  否则

  Sheet1.Cells(i,18)=0

  如果结束

  如果仪表(TT“”),则“抓取类别”

  Sheet1.Cells(i,19)拆分(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(tt)(1):“”)(0):“in”)(1):“(”)(0):“,”和“))

  否则

  Sheet1.Cells(i,19)@=“-”

  如果结束

  如果仪表(TT“”),则“抓取BSR1

  Sheet1.Cells(i,20)拆分(拆分)(拆分)(拆分)(tt,“”(1),in)(0),“#”)(1)

  否则

  Sheet1.Cells(i,20)=0

  如果结束

  如果instr(TT,“”),则“抓取节点”

  Sheet1.Cells(i,21)这句话的意思是:分裂,分裂,分裂,分裂@

  否则

  Sheet1.Cells(i,21)=“-”

  如果结束

  如果仪表(TT“”),则“抓取bsr2

  Sheet1.Cells(i,22)拆分(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(tt)(1):“”)(0):“”)(1):“”)(0):“”)(0):“”)(1):“”)(0):“”)(1)

  否则

  Sheet1.Cells(i,22)@=0

  如果结束

  接下来我

  端接头

  复制代码

  以前可以正常抓取商品信息(标题、品牌、评论、明星…),但最近抓取有误,商品本来是英文界面和数据,抓取时变成中文内容,导致原代码操作错误,(正常浏览产品页面时也会出现这种现象,但我们只需修改网站语言设置,防止出现中文内容),请问:

  你能在代码中指定一个浏览器,比如谷歌浏览器来捕获数据吗(我想知道代码是打开360页还是IE页面,这两个页面可能都有中文界面)

  还是其他问题造成的

  另外,我想在这段代码中添加setrequestheader,以避免网站反攀爬系统。我也希望得到老师的帮助

  非常感谢你的帮助

  бб

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线