抓取网页url php(第三方库之前用字符处理对网页源码提取信息的应用)
优采云 发布时间: 2021-09-18 18:16抓取网页url php(第三方库之前用字符处理对网页源码提取信息的应用)
有许多方便的第三方库用于网页结构处理。在使用第三方库之前,我尝试通过字符处理从网页源代码中提取信息
首先,引用urllib
import urllib.request
抓取网页并解码源代码
response=urllib.request.urlopen('https://www.baidu.com')
a=response.read().decode('utf-8')
print(type(a))
textlen=len(a)
通过了解HTML的结构,我们可以知道HTML代码中URL的结构通常是这样的
href="//www.baidu.com/"
因此,我们可以首先搜索字符串中的所有herf,然后找到两个最近的引号。引号之间的基本字符是URL。下面是代码实现
newfile="url.txt"
f=open(newfile,'w')
while len(a)>5:
urltext=a.find('href=')
temp=a[urltext:]
a=temp
urlcount=urlcount+1
urltext=a.find('"')
temp=a[urltext:]
a=temp
urltext=a.find('"',1)
urldata=a[1:urltext-1]
print(len(a))
f.write(urldata+'\n')
print(urlcount)
f.close()
主要通过find()函数定位和截取字符串,并将其保存到列表中。最后,将找到的所有URL保存到指定的文件中以供后续处理