汇总:Python爬虫大数据采集与挖掘教与学(教学大纲)
优采云 发布时间: 2020-09-03 07:43Python爬虫大数据采集和挖掘教学(课程提纲)
“ Python爬虫大数据采集和挖掘”
课程大纲
部门: 日期: 2019年10月10日
课程代码
课程名称
Python爬虫大数据采集和挖掘
学分数量
2
每周几小时
2
教学语言
中文
课程的性质
√核心课程√通识教育选修□基础基础√主要选修√专业选修□其他
教学目的
本课程主要针对大数据技术与应用,数据科学,计算机和电子信息等领域的2年级以上的本科生. 主要讲解互联网大数据采集技术和各种典型的爬虫技术,并结合相关的开放知识源码该软件包用Python实现,以加深学生对所学知识的理解. 通过本课程的教学,学生将对互联网大数据采集技术有全面的了解,掌握基本信息内容采集,提取和分析方法,并具有一定的实际应用和特定信息采集的需求. 解决能力.
基本内容简介
互联网大数据采集技术和实施概述; Web服务器应用程序体系结构和HTTP,机器人,HTML,页面编码和其他相关协议和规范;常用的Web爬虫技术,动态页面采集方法,主题爬虫技术,深层Web爬虫,微博信息采集,Web信息提取和反爬虫技术等;爬虫应用程序中使用的典型大数据处理和挖掘技术;全面运用各种爬虫和处理技术分析和设计新闻阅读器;了解采集器用于检测SQL注入安全性的方法.
基本要求:
必须了解互联网大数据的技术体系和主要技术采集;掌握各种典型爬虫的技术原理,技术框架,实现方法以及主要开源软件包的使用;了解抓取工具采集到达的网页数据. 处理方法,文本处理和相关的挖掘方法将使用Python来实现.
教学方法:
本课程主要基于讲座. 在本课程的教学过程中,将使用课堂讲解和课堂讨论为学生提供互动交流,并根据教学进度进行一些辅助实验.
课堂内外的讨论或实践,实践,经验等的设计:
课外活动需要认真完成分配的作业,理解并巩固所学内容.
评估和评估方法(提供学生课程最终成绩的分数构成,反映形成性评估过程)
评估包括普通成绩(出勤,项目,实验)和期末考试,分别占总课程成绩的35%和65%. 最终的评估形式是闭卷考试.
“ Python爬虫大数据采集和挖掘”
教学时间表
(推荐)
教学内容安排(每节课内容共16周,每32小时一次):
第一周:
第1课: 互联网大数据采集的概念,重要性,应用状态等;第2课: 互联网大数据采集技术体系,法律和技术边界,技术前景.
第二周:
第一课: HTML语言规范;第二课: 网页编码,正则表达式.
第三周:
第一课: Web服务器,应用程序体系结构,机器人;第二课: HTTP协议,状态保持技术.
第四周:
第1课: 常见的采集器系统,请求;第2课: 异常处理,链接提取
第5周:
第1课: 检索策略和实现,PR算法;第2课: 动态页面和采集技术
第6周:
第1课: 动态页面,Ajax,Cookie;第2课: 模拟浏览器技术
第七周:
第1课: 尝试使用静态页面采集;第2课: 尝试动态页面采集
第八周:
第1课: 介绍网页提取技术和思想;第2课: 基于结构的提取方法和主要的开源软件包.
第9周:
第1课: 主题采集器和技术框架,主题表示;第2课: 主题表示,相关性计算,示例.
第十周:
第1课: 网络信息提取实验;第2课: 关于主题采集器的实验.
第11周:
第一课: DeepWeb的概念,特征和采集要求,技术体系结构;第二课: 技术架构和实现示例.
第12周:
第一课: 微博采集方法概述,平台授权,API简介;第二课: Python调用API 采集,爬网方法采集.
第13周:
第1课: 反履带,反履带技术,反反履带技术概述;第2课: 文本分析和预处理概述.
第十四周:
第一课: 向量空间和文本分类;第二课: 主题建模,可视化技术.
第15周:
第1课: 常见的应用模式,新闻阅读器;第2课: 新闻阅读器,SQL注入检测.
第十六周:
综合实验,复习,考试
提供300分钟的视频讲解,教学大纲,课件,教学计划,练习答案,程序源代码和其他支持资源.
带书的视频演示