汇总：Python爬虫大数据采集与挖掘教与学（教学大纲）

优采云发布时间: 2020-09-03 07:43

　　Python爬虫大数据采集和挖掘教学（课程提纲）

　　“ Python爬虫大数据采集和挖掘”

　　课程大纲

　　部门: 日期: 2019年10月10日

　　课程代码

　　课程名称

　　Python爬虫大数据采集和挖掘

　　学分数量

　　2

　　每周几小时

　　2

　　教学语言

　　中文

　　课程的性质

　　√核心课程√通识教育选修□基础基础√主要选修√专业选修□其他

　　教学目的

　　本课程主要针对大数据技术与应用，数据科学，计算机和电子信息等领域的2年级以上的本科生. 主要讲解互联网大数据采集技术和各种典型的爬虫技术，并结合相关的开放知识源码该软件包用Python实现，以加深学生对所学知识的理解. 通过本课程的教学，学生将对互联网大数据采集技术有全面的了解，掌握基本信息内容采集，提取和分析方法，并具有一定的实际应用和特定信息采集的需求. 解决能力.

　　基本内容简介

　　互联网大数据采集技术和实施概述； Web服务器应用程序体系结构和HTTP，机器人，HTML，页面编码和其他相关协议和规范；常用的Web爬虫技术，动态页面采集方法，主题爬虫技术，深层Web爬虫，微博信息采集，Web信息提取和反爬虫技术等；爬虫应用程序中使用的典型大数据处理和挖掘技术；全面运用各种爬虫和处理技术分析和设计新闻阅读器;了解采集器用于检测SQL注入安全性的方法.

　　基本要求:

　　必须了解互联网大数据的技术体系和主要技术采集；掌握各种典型爬虫的技术原理，技术框架，实现方法以及主要开源软件包的使用；了解抓取工具采集到达的网页数据. 处理方法，文本处理和相关的挖掘方法将使用Python来实现.

　　教学方法:

　　本课程主要基于讲座. 在本课程的教学过程中，将使用课堂讲解和课堂讨论为学生提供互动交流，并根据教学进度进行一些辅助实验.

　　课堂内外的讨论或实践，实践，经验等的设计:

　　课外活动需要认真完成分配的作业，理解并巩固所学内容.

　　评估和评估方法（提供学生课程最终成绩的分数构成，反映形成性评估过程）

　　评估包括普通成绩（出勤，项目，实验）和期末考试，分别占总课程成绩的35％和65％. 最终的评估形式是闭卷考试.

　　“ Python爬虫大数据采集和挖掘”

　　教学时间表

　　（推荐）

　　教学内容安排（每节课内容共16周，每32小时一次）:

　　第一周:

　　第1课: 互联网大数据采集的概念，重要性，应用状态等；第2课: 互联网大数据采集技术体系，法律和技术边界，技术前景.

　　第二周:

　　第一课: HTML语言规范；第二课: 网页编码，正则表达式.

　　第三周:

　　第一课: Web服务器，应用程序体系结构，机器人；第二课: HTTP协议，状态保持技术.

　　第四周:

　　第1课: 常见的采集器系统，请求；第2课: 异常处理，链接提取

　　第5周:

　　第1课: 检索策略和实现，PR算法；第2课: 动态页面和采集技术

　　第6周:

　　第1课: 动态页面，Ajax，Cookie；第2课: 模拟浏览器技术

　　第七周:

　　第1课: 尝试使用静态页面采集；第2课: 尝试动态页面采集

　　第八周:

　　第1课: 介绍网页提取技术和思想；第2课: 基于结构的提取方法和主要的开源软件包.

　　第9周:

　　第1课: 主题采集器和技术框架，主题表示；第2课: 主题表示，相关性计算，示例.

　　第十周:

　　第1课: 网络信息提取实验；第2课: 关于主题采集器的实验.

　　第11周:

　　第一课: DeepWeb的概念，特征和采集要求，技术体系结构；第二课: 技术架构和实现示例.

　　第12周:

　　第一课: 微博采集方法概述，平台授权，API简介；第二课: Python调用API 采集，爬网方法采集.

　　第13周:

　　第1课: 反履带，反履带技术，反反履带技术概述；第2课: 文本分析和预处理概述.

　　第十四周:

　　第一课: 向量空间和文本分类；第二课: 主题建模，可视化技术.

　　第15周:

　　第1课: 常见的应用模式，新闻阅读器；第2课: 新闻阅读器，SQL注入检测.

　　第十六周:

　　综合实验，复习，考试

　　提供300分钟的视频讲解，教学大纲，课件，教学计划，练习答案，程序源代码和其他支持资源.

　　带书的视频演示

0

2020-09-03

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总：Python爬虫大数据采集与挖掘教与学（教学大纲）

0 个评论

发起人