php 抓取网页标题(php抓取网页标题时会爬上一段html,从这个html可以判断出哪个位置有哪个类型的爬虫正在爬)

优采云 发布时间: 2021-10-12 08:02

  php 抓取网页标题(php抓取网页标题时会爬上一段html,从这个html可以判断出哪个位置有哪个类型的爬虫正在爬)

  php抓取网页标题时会爬上一段html,从这个html可以判断出哪个位置有哪个类型的爬虫正在爬。可以借助beautifulsoup来截获html中的tag,以及针对爬虫类型或者爬虫元素选择相应的javascript来爬取里面的标题,比如说sc的-pg,-ma等等。html和javascript用于方便抓取出代码并存档,不用在乎起始页是什么。

  比如说用javascript截获如下这样的代码,网页的标题包含着:红色部分是基本的代码写法和方法:“page_type='page'tab_text='table'form_size=1.0select_text='article/select'meta='style={{font-size:1}}'”其中tab_text是这个网页标题中"标题"和"条目"这两个标签中任意一个。

  用beautifulsoup抓取到的html如下:frombs4importbeautifulsoupimportjsonimportrequestsimportjsonimportrehtml='''抓取page_type='page'tab_text='table'form_size=1.0'data=json.loads(html)data=json.loads(data)'''login'''data={'username':'xxxx','password':'xxxx','sign_pass':false}html=requests.get(url=html).json()response=json.loads(response)'''获取小黄人'''data=json.loads(html)forjinjson.loads(html):data['id']=re.sub('id=','',j)data['class']=re.sub('class=','',j)data['action']=re.sub('action=','',j)data['type']='tag'data['type']='text'data['text']='''获取小黄人性别'''data=json.loads(html)forcinjson.loads(data):c=int(json.loads(c))a=re.sub('age=',c)print(a)data['text']='''获取小黄人内裤'''data=json.loads(html)forjinjson.loads(data):data['text']=int(json.loads(data['text']))returndatadata['text']='''获取小黄人性取值'''data=json.loads(html)forcinjson.loads(data):c=c['text']forjinjson.loads(data['text']):id=re.sub('id=',j['id'])sex=re.sub('sex=',re.sub('sex=',j['sex'])type=re.sub('type=',j['type'])class=re.。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线