汇总:Python爬虫大数据采集与挖掘教与学(教学大纲)

优采云 发布时间: 2020-09-03 07:43

  Python爬虫大数据采集和挖掘教学(课程提纲)

  

  “ Python爬虫大数据采集和挖掘”

  课程大纲

  部门: 日期: 2019年10月10日

  课程代码

  课程名称

  Python爬虫大数据采集和挖掘

  学分数量

  2

  每周几小时

  2

  教学语言

  中文

  课程的性质

  √核心课程√通识教育选修□基础基础√主要选修√专业选修□其他

  教学目的

  本课程主要针对大数据技术与应用,数据科学,计算机和电子信息等领域的2年级以上的本科生. 主要讲解互联网大数据采集技术和各种典型的爬虫技术,并结合相关的开放知识源码该软件包用Python实现,以加深学生对所学知识的理解. 通过本课程的教学,学生将对互联网大数据采集技术有全面的了解,掌握基本信息内容采集,提取和分析方法,并具有一定的实际应用和特定信息采集的需求. 解决能力.

  基本内容简介

  互联网大数据采集技术和实施概述; Web服务器应用程序体系结构和HTTP,机器人,HTML,页面编码和其他相关协议和规范;常用的Web爬虫技术,动态页面采集方法,主题爬虫技术,深层Web爬虫,微博信息采集,Web信息提取和反爬虫技术等;爬虫应用程序中使用的典型大数据处理和挖掘技术;全面运用各种爬虫和处理技术分析和设计新闻阅读器;了解采集器用于检测SQL注入安全性的方法.

  基本要求:

  必须了解互联网大数据的技术体系和主要技术采集;掌握各种典型爬虫的技术原理,技术框架,实现方法以及主要开源软件包的使用;了解抓取工具采集到达的网页数据. 处理方法,文本处理和相关的挖掘方法将使用Python来实现.

  教学方法:

  本课程主要基于讲座. 在本课程的教学过程中,将使用课堂讲解和课堂讨论为学生提供互动交流,并根据教学进度进行一些辅助实验.

  课堂内外的讨论或实践,实践,经验等的设计:

  课外活动需要认真完成分配的作业,理解并巩固所学内容.

  评估和评估方法(提供学生课程最终成绩的分数构成,反映形成性评估过程)

  评估包括普通成绩(出勤,项目,实验)和期末考试,分别占总课程成绩的35%和65%. 最终的评估形式是闭卷考试.

  “ Python爬虫大数据采集和挖掘”

  教学时间表

  (推荐)

  教学内容安排(每节课内容共16周,每32小时一次):

  第一周:

  第1课: 互联网大数据采集的概念,重要性,应用状态等;第2课: 互联网大数据采集技术体系,法律和技术边界,技术前景.

  第二周:

  第一课: HTML语言规范;第二课: 网页编码,正则表达式.

  第三周:

  第一课: Web服务器,应用程序体系结构,机器人;第二课: HTTP协议,状态保持技术.

  第四周:

  第1课: 常见的采集器系统,请求;第2课: 异常处理,链接提取

  第5周:

  第1课: 检索策略和实现,PR算法;第2课: 动态页面和采集技术

  第6周:

  第1课: 动态页面,Ajax,Cookie;第2课: 模拟浏览器技术

  第七周:

  第1课: 尝试使用静态页面采集;第2课: 尝试动态页面采集

  第八周:

  第1课: 介绍网页提取技术和思想;第2课: 基于结构的提取方法和主要的开源软件包.

  第9周:

  第1课: 主题采集器和技术框架,主题表示;第2课: 主题表示,相关性计算,示例.

  第十周:

  第1课: 网络信息提取实验;第2课: 关于主题采集器的实验.

  第11周:

  第一课: DeepWeb的概念,特征和采集要求,技术体系结构;第二课: 技术架构和实现示例.

  第12周:

  第一课: 微博采集方法概述,平台授权,API简介;第二课: Python调用API 采集,爬网方法采集.

  第13周:

  第1课: 反履带,反履带技术,反反履带技术概述;第2课: 文本分析和预处理概述.

  第十四周:

  第一课: 向量空间和文本分类;第二课: 主题建模,可视化技术.

  第15周:

  第1课: 常见的应用模式,新闻阅读器;第2课: 新闻阅读器,SQL注入检测.

  第十六周:

  综合实验,复习,考试

  

  提供300分钟的视频讲解,教学大纲,课件,教学计划,练习答案,程序源代码和其他支持资源.

  带书的视频演示

  

  

  

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线