实时抓取网页数据(【*敏*感*词*】如何成为一个有意思的人?(上))
优采云 发布时间: 2021-09-20 18:37实时抓取网页数据(【*敏*感*词*】如何成为一个有意思的人?(上))
.打开“GET”,SURL,False
.发送
'tt=.responseBody
tt=.responseText
'tt=StrConv(.responsebody,vbUnicode)
以
如果仪表(tt,“Sheet1.Cells(i,13)=Split(Split)(拆分)(tt,“”)(0),“>”)(1)
否则
Sheet1.Cells(i,13)=“-”
如果结束
如果仪表(TT“”),则“获取标题”
Sheet1.Cells(i,14)=阀内件(更换(分体式)(分体式)(tt,“”(1),“”(0),vbLf,“”)))
否则
Sheet1.Cells(i,14)=“-”
如果结束
如果instr(TT,“”),则“获取注释”
Sheet1.Cells(i,15)拆分(拆分)(拆分)(tt,“”(1),“”(0),“”)(0)
否则
Sheet1.Cells(i,15)@=0
如果结束
如果仪表(tt,“Sheet1.Cells(i,16)拆分(拆分)(拆分)(拆分)(tt)(0),“title=”)(1)),”)(0)
否则
Sheet1.Cells(i,16)@=0
如果结束
如果仪表(tt,“Sheet1.Cells(i,17)=拆分(替换拆分)(拆分)(拆分(拆分)(拆分)(拆分)(拆分)(拆分)(tt,“”(0),“”(1),vbLf,“”)))(0)
否则
Sheet1.Cells(i,17)=0
如果结束
如果仪表(tt,“Sheet1.Cells(i,18)=Split(Split)(拆分)(tt,“”)(0),“>”)(1)
否则
Sheet1.Cells(i,18)=0
如果结束
如果仪表(TT“”),则“抓取类别”
Sheet1.Cells(i,19)拆分(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(tt)(1):“”)(0):“in”)(1):“(”)(0):“,”和“))
否则
Sheet1.Cells(i,19)@=“-”
如果结束
如果仪表(TT“”),则“抓取BSR1
Sheet1.Cells(i,20)拆分(拆分)(拆分)(拆分)(tt,“”(1),in)(0),“#”)(1)
否则
Sheet1.Cells(i,20)=0
如果结束
如果instr(TT,“”),则“抓取节点”
Sheet1.Cells(i,21)这句话的意思是:分裂,分裂,分裂,分裂@
否则
Sheet1.Cells(i,21)=“-”
如果结束
如果仪表(TT“”),则“抓取bsr2
Sheet1.Cells(i,22)拆分(拆分)(拆分)(拆分)(拆分)(拆分)(拆分)(tt)(1):“”)(0):“”)(1):“”)(0):“”)(0):“”)(1):“”)(0):“”)(1)
否则
Sheet1.Cells(i,22)@=0
如果结束
接下来我
端接头
复制代码
以前可以正常抓取商品信息(标题、品牌、评论、明星…),但最近抓取有误,商品本来是英文界面和数据,抓取时变成中文内容,导致原代码操作错误,(正常浏览产品页面时也会出现这种现象,但我们只需修改网站语言设置,防止出现中文内容),请问:
你能在代码中指定一个浏览器,比如谷歌浏览器来捕获数据吗(我想知道代码是打开360页还是IE页面,这两个页面可能都有中文界面)
还是其他问题造成的
另外,我想在这段代码中添加setrequestheader,以避免网站反攀爬系统。我也希望得到老师的帮助
非常感谢你的帮助
бб