抓取网页url php(第三方库之前用字符处理对网页源码提取信息的应用)

优采云发布时间: 2021-09-18 18:16

　　有许多方便的第三方库用于网页结构处理。在使用第三方库之前，我尝试通过字符处理从网页源代码中提取信息

　　首先，引用urllib

　　import urllib.request

　　抓取网页并解码源代码

　　response=urllib.request.urlopen('https://www.baidu.com')

a=response.read().decode('utf-8')

print(type(a))

textlen=len(a)

　　通过了解HTML的结构，我们可以知道HTML代码中URL的结构通常是这样的

　　href="//www.baidu.com/"

　　因此，我们可以首先搜索字符串中的所有herf，然后找到两个最近的引号。引号之间的基本字符是URL。下面是代码实现

　　newfile="url.txt"

f=open(newfile,'w')

while len(a)>5:

urltext=a.find('href=')

temp=a[urltext:]

a=temp

urlcount=urlcount+1

urltext=a.find('"')

temp=a[urltext:]

a=temp

urltext=a.find('"',1)

urldata=a[1:urltext-1]

print(len(a))

f.write(urldata+'\n')

print(urlcount)

f.close()

　　主要通过find（）函数定位和截取字符串，并将其保存到列表中。最后，将找到的所有URL保存到指定的文件中以供后续处理

0

2021-09-18

抓取网页url php

0 个评论

要回复文章请先登录或注册