核心方法:python爬虫学习(requests模块)

优采云 发布时间: 2022-12-08 04:24

  核心方法:python爬虫学习(requests模块)

  # 需求:爬取搜狗首页数据

import requests

# -指定url

url = 'https://www.sogou.com/'

# 发起请求

response = requests.get(url=url)

# 获取响应数据

page_text = response.text

print(page_text)

# 持久化存储

with open('./sogou.html', 'w', encoding='utf-8') as fp:

fp.write(page_text)

  实践巩固:

  1. 抓取搜狗指定词对应的搜索结果页(简单网页采集器)()

  import requests

# 指定UA,通过UA检测

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

# 指定url

url = 'https://www.sogou.com/web'

# 处理url中携带的参数

kw = input("请输入要查询的内容:")

param = {

'query':kw

}

# 发送请求

page_text = requests.get(url=url,params=param,headers=headers).text

# print(page_text)

# 持久化存储得到的数据

filename = kw+'.html'

with open(filename,'w',encoding='utf-8') as fp:

fp.write(page_text)

print(filename,'保存成功')

  2. 抓取百度翻译()。

  import requests

post_url = 'https://fanyi.baidu.com/sug'

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

kw = input("请输入要翻译的内容:")

data = {

'kw':kw

}

page_json = requests.post(url=post_url,data=data,headers=headers).json()

print(page_json)

<p>

</p>

  3.抓取豆瓣电影分类排名中的电影细节数据()。

  import requests

import json

# 指定url

url = &#39;https://movie.douban.com/j/chart/top_list&#39;

headers = {

&#39;User-Agent&#39;:

&#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0&#39;

}

param = {

&#39;type&#39;: &#39;11&#39;,

&#39;interval_id&#39;: &#39;100:90&#39;,

&#39;action&#39;: &#39;&#39;,

# 从当前类型第几部电影开始取

&#39;start&#39;: &#39;0&#39;,

# 一次取出多少部

&#39;limit&#39;: &#39;20&#39;,

}

page_json = requests.get(url=url, params=param, headers=headers).json()

# print(page_json)

fp = open(&#39;./douban.json&#39;, &#39;w&#39;, encoding=&#39;utf-8&#39;)

json.dump(page_json, fp=fp, ensure_ascii=False)

  4.抓取肯德基餐厅地址查找()。

  import requests

import json

url = &#39;http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword&#39;

headers = {

&#39;User-Agent&#39;:

&#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0&#39;

}

kw = input(&#39;请输入要查询的地址:&#39;)

page = input(&#39;请输入查询的页数:&#39;)

data = {

&#39;cname&#39;: &#39;&#39;,

&#39;pid&#39;: &#39;&#39;,

&#39;keyword&#39;: kw,

&#39;pageIndex&#39;: page,

&#39;pageSize&#39;: &#39;10&#39;,

}

page_json = requests.post(url=url, data=data, headers=headers).json()

page_txet = requests.post(url=url,data=data,headers=headers).text

fileName = kw + page + &#39;.html&#39;

with open(fileName,&#39;w&#39;,encoding=&#39;utf-8&#39;) as fp:

fp.write(page_txet)

# fileName = kw + page + &#39;.json&#39;

<p>

# with open(fileName, &#39;w&#39;, encoding=&#39;utf-8&#39;) as fp:

# json.dump(page_json, fp=fp, ensure_ascii=False)

print(&#39;查询完毕&#39;)

</p>

  5、抓取中华人民共和国化妆品生产许可证相关数据(:81/xk/)。

  import requests

import json

url = &#39;http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList&#39;

headers = {

&#39;User-Agent&#39;:

&#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0&#39;

}

# 存储企业ID

id_list = []

# 存储所有企业详情数据

all_data_list = []

# 分页操作

for page in range(1):

page = str(page)

data = {

&#39;on&#39;: &#39;true&#39;,

&#39;page&#39;: page,

&#39;pageSize&#39;: &#39;15&#39;,

&#39;productName&#39;: &#39;&#39;,

&#39;conditionType&#39;: &#39;1&#39;,

&#39;applyname&#39;: &#39;&#39;,

&#39;applysn&#39;: &#39;&#39;,

}

# 获取id

ids_json = requests.post(url=url, headers=headers, data=data).json()

# print(ids_json)

for dic in ids_json[&#39;list&#39;]:

id_list.append(dic[&#39;ID&#39;])

# print(id_list)

post_url = &#39;http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById&#39;

for id in id_list:

data = {

&#39;id&#39;: id

}

data_json = requests.post(

url=post_url, headers=headers, data=data).json()

# print(data_json)

all_data_list.append(data_json)

print(all_data_list)

#持久化存储

fp = open(&#39;./allData.json&#39;, &#39;w&#39;, encoding=&#39;utf-8&#39;)

json.dump(all_data_list, fp=fp, ensure_ascii=False)

print(&#39;第&#39;, page, &#39;页爬取完毕&#39;)

  核心方法:飞达鲁同义词替换工具v2.0

  飞达鲁同义词替换工具是一款同义词替换工具,收录了很多我们生活中需要用到的功能。该软件界面简洁,但功能非常强大。无论我们是在日常生活中还是在办公过程中,我们都可以使用这款软件作为我们的工具。

  软件说明

  飞达路同义词替换工具正式版是一款不错的文章伪原创工具,用户通过飞达路同义词替换工具可以快速替换文章中的部分关键词,从而消除重复率,不修改文章的内容,这对一些做SEO工作的用户很有用。

  

  软件特色

  1.让您的更换更DIY、更个性化。

  2. 将一个文章替换为另一个全新的伪原创文章同义词,替换速度快。

  3、使用准确强大的词库快速替换文章,使文章达到伪原创的目的。

  4.让您的更换更加DIY,更加个性化。是站长朋友更新网站数据的好帮手。

  

  5.飞打录网站可以下载最新的词库,全部免费!!

  安装步骤

  在本站下载最新的安装包解压,打开后点击exe文件即可使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线