秘密:Python采集某Top 250信息,再也不怕寂寞无聊......
优采云 发布时间: 2022-10-01 00:30秘密:Python采集某Top 250信息,再也不怕寂寞无聊......
大家好,我是小熊猫❤
最近有点闹剧...
前十的电影已经不够了
这次整体排名TOP250来一次看够了
本次活动亮点: 使用环境介绍:
本模块使用: 模块安装问题:如果安装python第三方模块:win + R 输入cmd 点击确定,输入安装命令 pip install module name (pip install requests) 在pycharm中输入并点击Terminal(终端) 输入安装命令安装失败原因:
失败一:pip不是内部命令
解决方法:设置环境变量
故障2:有大量红色报告(读取超时)
解决方案:
因为网络连接超时,需要切换镜像源
清华大学:
阿里云:中国科学技术大学
华中科技大学:山东工业大学:
豆瓣:例如:pip3 install -i
模块名称
失败三:cmd显示已经安装,或者安装成功,但是在pycharm中还是无法导入
解决方法:可能安装了多个python版本(anaconda或者python都可以安装一个)
卸载一个或者你的pycharm中的python解释器没有设置
如何在pycharm中配置python解释器?选择file(文件)>>> setting(设置)>>> Project(项目)>>> python解释器(python解释器)点击齿轮,选择add
添加python安装路径 pycharm如何安装插件?
选择文件>>>设置>>>插件
单击 Marketplace 并输入要安装的插件的名称。例如:翻译插件输入翻译
选择对应的插件,点击安装。安装成功后会弹出重启pycharm的选项,点击确定。重启后,爬虫代码生效。有四个基本步骤:
发送请求确定请求url地址
通过python代码模拟浏览器向一个url地址发送请求
检索数据
获取服务器返回的响应数据
分析数据
保存数据
代码
import requests # 数据请求模块
import parsel # 数据解析模块
<p>
import csv # 保存csv文件
f = open('top250最终版本03.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
'电影名',
# '导演',
# '主演',
'演员信息',
'年份',
'国家',
'电影类型',
'评分',
'评论量',
'简介',
'详情页',
])
csv_writer.writeheader()
# 1. 发送请求
for page in range(0, 250, 25):
url = f'https:///top250?start={page}&filter='
# 请求头 字典数据类型, 构建完整键值对 对于一些基本没有什么反爬的网站, 不加请求头也可以
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36'
}
# 发送请求代码
response = requests.get(url=url, headers=headers) # 200 状态码表示请求成功
# 2. 获取响应对象的文本数据
# print(response.text) # 字符串数据类型
# 3. 解析数据 提取我们想要数据内容 如果你想要直接对于字符串数据进行解析(提取) 只能用re正则
selector = parsel.Selector(response.text) # 把获取下来html字符串数据, 转成selector可解析的对象
# print(selector)