抓取网页url php(第三方库之前用字符处理对网页源码提取信息的应用)

优采云 发布时间: 2021-09-18 18:16

  抓取网页url php(第三方库之前用字符处理对网页源码提取信息的应用)

  有许多方便的第三方库用于网页结构处理。在使用第三方库之前,我尝试通过字符处理从网页源代码中提取信息

  首先,引用urllib

  import urllib.request

  抓取网页并解码源代码

  response=urllib.request.urlopen('https://www.baidu.com')

a=response.read().decode('utf-8')

print(type(a))

textlen=len(a)

  通过了解HTML的结构,我们可以知道HTML代码中URL的结构通常是这样的

  href="//www.baidu.com/"

  因此,我们可以首先搜索字符串中的所有herf,然后找到两个最近的引号。引号之间的基本字符是URL。下面是代码实现

  newfile="url.txt"

f=open(newfile,'w')

while len(a)>5:

urltext=a.find('href=')

temp=a[urltext:]

a=temp

urlcount=urlcount+1

urltext=a.find('"')

temp=a[urltext:]

a=temp

urltext=a.find('"',1)

urldata=a[1:urltext-1]

print(len(a))

f.write(urldata+'\n')

print(urlcount)

f.close()

  主要通过find()函数定位和截取字符串,并将其保存到列表中。最后,将找到的所有URL保存到指定的文件中以供后续处理

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线