秘密:Python采集某Top 250信息,再也不怕寂寞无聊......

优采云 发布时间: 2022-10-01 00:30

  秘密:Python采集某Top 250信息,再也不怕寂寞无聊......

  大家好,我是小熊猫❤

  最近有点闹剧...

  前十的电影已经不够了

  这次整体排名TOP250来一次看够了

  本次活动亮点: 使用环境介绍:

  本模块使用: 模块安装问题:如果安装python第三方模块:win + R 输入cmd 点击确定,输入安装命令 pip install module name (pip install requests) 在pycharm中输入并点击Terminal(终端) 输入安装命令安装失败原因:

  失败一:pip不是内部命令

  解决方法:设置环境变量

  故障2:有大量红色报告(读取超时)

  解决方案:

  因为网络连接超时,需要切换镜像源

  清华大学:

  阿里云:中国科学技术大学

  华中科技大学:山东工业大学:

  豆瓣:例如:pip3 install -i

  模块名称

  失败三:cmd显示已经安装,或者安装成功,但是在pycharm中还是无法导入

  解决方法:可能安装了多个python版本(anaconda或者python都可以安装一个)

  卸载一个或者你的pycharm中的python解释器没有设置

  如何在pycharm中配置python解释器?选择file(文件)>>> setting(设置)>>> Project(项目)>>> python解释器(python解释器)点击齿轮,选择add

  添加python安装路径 pycharm如何安装插件?

  选择文件>>>设置>>>插件

  单击 Marketplace 并输入要安装的插件的名称。例如:翻译插件输入翻译

  选择对应的插件,点击安装。安装成功后会弹出重启pycharm的选项,点击确定。重启后,爬虫代码生效。有四个基本步骤:

  发送请求确定请求url地址

  通过python代码模拟浏览器向一个url地址发送请求

  检索数据

  获取服务器返回的响应数据

  分析数据

  保存数据

  代码

  import requests # 数据请求模块

import parsel # 数据解析模块

<p>

import csv # 保存csv文件

f = open(&#39;top250最终版本03.csv&#39;, mode=&#39;a&#39;, encoding=&#39;utf-8&#39;, newline=&#39;&#39;)

csv_writer = csv.DictWriter(f, fieldnames=[

&#39;电影名&#39;,

# &#39;导演&#39;,

# &#39;主演&#39;,

&#39;演员信息&#39;,

&#39;年份&#39;,

&#39;国家&#39;,

&#39;电影类型&#39;,

&#39;评分&#39;,

&#39;评论量&#39;,

&#39;简介&#39;,

&#39;详情页&#39;,

])

csv_writer.writeheader()

# 1. 发送请求

for page in range(0, 250, 25):

url = f&#39;https:///top250?start={page}&filter=&#39;

# 请求头 字典数据类型, 构建完整键值对 对于一些基本没有什么反爬的网站, 不加请求头也可以

headers = {

&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36&#39;

}

# 发送请求代码

response = requests.get(url=url, headers=headers) # 200 状态码表示请求成功

# 2. 获取响应对象的文本数据

# print(response.text) # 字符串数据类型

# 3. 解析数据 提取我们想要数据内容 如果你想要直接对于字符串数据进行解析(提取) 只能用re正则

selector = parsel.Selector(response.text) # 把获取下来html字符串数据, 转成selector可解析的对象

# print(selector)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线