秘密:Python采集某Top 250信息，再也不怕寂寞无聊......

优采云发布时间: 2022-10-01 00:30

　　大家好，我是小熊猫❤

　　最近有点闹剧...

　　前十的电影已经不够了

　　这次整体排名TOP250来一次看够了

　　本次活动亮点：使用环境介绍：

　　本模块使用：模块安装问题：如果安装python第三方模块：win + R 输入cmd 点击确定，输入安装命令 pip install module name (pip install requests) 在pycharm中输入并点击Terminal(终端) 输入安装命令安装失败原因：

　　失败一：pip不是内部命令

　　解决方法：设置环境变量

　　故障2：有大量红色报告（读取超时）

　　解决方案：

　　因为网络连接超时，需要切换镜像源

　　清华大学：

　　阿里云：中国科学技术大学

　　华中科技大学：山东工业大学：

　　豆瓣：例如：pip3 install -i

　　模块名称

　　失败三：cmd显示已经安装，或者安装成功，但是在pycharm中还是无法导入

　　解决方法：可能安装了多个python版本（anaconda或者python都可以安装一个）

　　卸载一个或者你的pycharm中的python解释器没有设置

　　如何在pycharm中配置python解释器？选择file（文件）>>> setting（设置）>>> Project（项目）>>> python解释器（python解释器）点击齿轮，选择add

　　添加python安装路径 pycharm如何安装插件？

　　选择文件>>>设置>>>插件

　　单击 Marketplace 并输入要安装的插件的名称。例如：翻译插件输入翻译

　　选择对应的插件，点击安装。安装成功后会弹出重启pycharm的选项，点击确定。重启后，爬虫代码生效。有四个基本步骤：

　　发送请求确定请求url地址

　　通过python代码模拟浏览器向一个url地址发送请求

　　检索数据

　　获取服务器返回的响应数据

　　分析数据

　　保存数据

　　代码

　　import requests # 数据请求模块

import parsel # 数据解析模块

<p>

import csv # 保存csv文件

f = open('top250最终版本03.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.DictWriter(f, fieldnames=[

'电影名',

# '导演',

# '主演',

'演员信息',

'年份',

'国家',

'电影类型',

'评分',

'评论量',

'简介',

'详情页',

])

csv_writer.writeheader()

# 1. 发送请求

for page in range(0, 250, 25):

url = f'https:///top250?start={page}&filter='

# 请求头字典数据类型, 构建完整键值对对于一些基本没有什么反爬的网站, 不加请求头也可以

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36'

}

# 发送请求代码

response = requests.get(url=url, headers=headers) # 200 状态码表示请求成功

# 2. 获取响应对象的文本数据

# print(response.text) # 字符串数据类型

# 3. 解析数据提取我们想要数据内容如果你想要直接对于字符串数据进行解析(提取) 只能用re正则

selector = parsel.Selector(response.text) # 把获取下来html字符串数据, 转成selector可解析的对象

# print(selector)

0

2022-10-01

采集相关文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

秘密:Python采集某Top 250信息，再也不怕寂寞无聊......

0 个评论

发起人

AI时代内容工厂

秘密:Python采集某Top 250信息，再也不怕寂寞无聊......

0 个评论

发起人

相关问题