核心方法:python爬虫学习(requests模块)

优采云发布时间: 2022-12-08 04:24

　　# 需求：爬取搜狗首页数据

import requests

# -指定url

url = 'https://www.sogou.com/'

# 发起请求

response = requests.get(url=url)

# 获取响应数据

page_text = response.text

print(page_text)

# 持久化存储

with open('./sogou.html', 'w', encoding='utf-8') as fp:

fp.write(page_text)

　　实践巩固：

　　1. 抓取搜狗指定词对应的搜索结果页（简单网页采集器）（）

　　import requests

# 指定UA,通过UA检测

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

# 指定url

url = 'https://www.sogou.com/web'

# 处理url中携带的参数

kw = input("请输入要查询的内容:")

param = {

'query':kw

}

# 发送请求

page_text = requests.get(url=url,params=param,headers=headers).text

# print(page_text)

# 持久化存储得到的数据

filename = kw+'.html'

with open(filename,'w',encoding='utf-8') as fp:

fp.write(page_text)

print(filename,'保存成功')

　　2. 抓取百度翻译（）。

　　import requests

post_url = 'https://fanyi.baidu.com/sug'

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

kw = input("请输入要翻译的内容:")

data = {

'kw':kw

}

page_json = requests.post(url=post_url,data=data,headers=headers).json()

print(page_json)

<p>

</p>

　　3.抓取豆瓣电影分类排名中的电影细节数据（）。

　　import requests

import json

# 指定url

url = 'https://movie.douban.com/j/chart/top_list'

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

param = {

'type': '11',

'interval_id': '100:90',

'action': '',

# 从当前类型第几部电影开始取

'start': '0',

# 一次取出多少部

'limit': '20',

}

page_json = requests.get(url=url, params=param, headers=headers).json()

# print(page_json)

fp = open('./douban.json', 'w', encoding='utf-8')

json.dump(page_json, fp=fp, ensure_ascii=False)

　　4.抓取肯德基餐厅地址查找（）。

　　import requests

import json

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

kw = input('请输入要查询的地址:')

page = input('请输入查询的页数:')

data = {

'cname': '',

'pid': '',

'keyword': kw,

'pageIndex': page,

'pageSize': '10',

}

page_json = requests.post(url=url, data=data, headers=headers).json()

page_txet = requests.post(url=url,data=data,headers=headers).text

fileName = kw + page + '.html'

with open(fileName,'w',encoding='utf-8') as fp:

fp.write(page_txet)

# fileName = kw + page + '.json'

<p>

# with open(fileName, 'w', encoding='utf-8') as fp:

# json.dump(page_json, fp=fp, ensure_ascii=False)

print('查询完毕')

</p>

　　5、抓取中华人民共和国化妆品生产许可证相关数据（：81/xk/）。

　　import requests

import json

url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

headers = {

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'

}

# 存储企业ID

id_list = []

# 存储所有企业详情数据

all_data_list = []

# 分页操作

for page in range(1):

page = str(page)

data = {

'on': 'true',

'page': page,

'pageSize': '15',

'productName': '',

'conditionType': '1',

'applyname': '',

'applysn': '',

}

# 获取id

ids_json = requests.post(url=url, headers=headers, data=data).json()

# print(ids_json)

for dic in ids_json['list']:

id_list.append(dic['ID'])

# print(id_list)

post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'

for id in id_list:

data = {

'id': id

}

data_json = requests.post(

url=post_url, headers=headers, data=data).json()

# print(data_json)

all_data_list.append(data_json)

print(all_data_list)

#持久化存储

fp = open('./allData.json', 'w', encoding='utf-8')

json.dump(all_data_list, fp=fp, ensure_ascii=False)

print('第', page, '页爬取完毕')

　　核心方法:飞达鲁同义词替换工具v2.0

　　飞达鲁同义词替换工具是一款同义词替换工具，收录了很多我们生活中需要用到的功能。该软件界面简洁，但功能非常强大。无论我们是在日常生活中还是在办公过程中，我们都可以使用这款软件作为我们的工具。

　　软件说明

　　飞达路同义词替换工具正式版是一款不错的文章伪原创工具，用户通过飞达路同义词替换工具可以快速替换文章中的部分关键词，从而消除重复率，不修改文章的内容，这对一些做SEO工作的用户很有用。

　　软件特色

　　1.让您的更换更DIY、更个性化。

　　2. 将一个文章替换为另一个全新的伪原创文章同义词，替换速度快。

　　3、使用准确强大的词库快速替换文章，使文章达到伪原创的目的。

　　4.让您的更换更加DIY，更加个性化。是站长朋友更新网站数据的好帮手。

　　5.飞打录网站可以下载最新的词库，全部免费！！

　　安装步骤

　　在本站下载最新的安装包解压，打开后点击exe文件即可使用。

0

2022-12-08

网页文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

核心方法:python爬虫学习(requests模块)

0 个评论

发起人