php 抓取网页标题(php抓取网页标题时会爬上一段html，从这个html可以判断出哪个位置有哪个类型的爬虫正在爬)

优采云发布时间: 2021-10-12 08:02

　　php抓取网页标题时会爬上一段html，从这个html可以判断出哪个位置有哪个类型的爬虫正在爬。可以借助beautifulsoup来截获html中的tag，以及针对爬虫类型或者爬虫元素选择相应的javascript来爬取里面的标题，比如说sc的-pg，-ma等等。html和javascript用于方便抓取出代码并存档，不用在乎起始页是什么。

　　比如说用javascript截获如下这样的代码，网页的标题包含着：红色部分是基本的代码写法和方法：“page_type='page'tab_text='table'form_size=1.0select_text='article/select'meta='style={{font-size:1}}'”其中tab_text是这个网页标题中"标题"和"条目"这两个标签中任意一个。

　　用beautifulsoup抓取到的html如下：frombs4importbeautifulsoupimportjsonimportrequestsimportjsonimportrehtml='''抓取page_type='page'tab_text='table'form_size=1.0'data=json.loads(html)data=json.loads(data)'''login'''data={'username':'xxxx','password':'xxxx','sign_pass':false}html=requests.get(url=html).json()response=json.loads(response)'''获取小黄人'''data=json.loads(html)forjinjson.loads(html):data['id']=re.sub('id=','',j)data['class']=re.sub('class=','',j)data['action']=re.sub('action=','',j)data['type']='tag'data['type']='text'data['text']='''获取小黄人性别'''data=json.loads(html)forcinjson.loads(data):c=int(json.loads(c))a=re.sub('age=',c)print(a)data['text']='''获取小黄人内裤'''data=json.loads(html)forjinjson.loads(data):data['text']=int(json.loads(data['text']))returndatadata['text']='''获取小黄人性取值'''data=json.loads(html)forcinjson.loads(data):c=c['text']forjinjson.loads(data['text']):id=re.sub('id=',j['id'])sex=re.sub('sex=',re.sub('sex=',j['sex'])type=re.sub('type=',j['type'])class=re.。

0

2021-10-12

php 抓取网页标题

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 抓取网页标题(php抓取网页标题时会爬上一段html，从这个html可以判断出哪个位置有哪个类型的爬虫正在爬)

0 个评论

发起人