2019年最新 复旦大学 - 机器学习(商务数据分析)
课程介绍
掌握机器学习的基本概念、常用算法,并在此基础上应用于相关领域,培养一定的分析实际问题的能力。商务数据分析(机器学习篇)利用机器学习等方法对商务数据进行分析,以提决策的质量。本课程主要介绍机器学习的基本方法,涵盖了统计学习基础、分类、聚类、进化计算、文本分析等经典的机器学习知识,也包括分布式机器学习算法、深度学习以及推荐技术等基本的内容。
1.我为什么要学习这门课?
机器学习是人工智能的重要组成和技术基础,伴随着人工智能几十年的发展,期间几次大起大落。作为机器学习的高级阶段,最近几年深度学习算法在自然语言处理、语音识别、图像处理等领域的突破应用和广泛接受。这也标志着机器学习已经彻底迈出实验室大门,走向实践,推动着人工智能向更高阶段发展。数据应用和人工智能发展已经引起了全球关注。企业对机器学习的人才需求增大,与之密切相关的数据科学家、数据挖掘工程师、大数据分析师、机器学习工程师等数据分析类人才成为本世纪最有吸引力的职业。根据相关企业估计,上述人才的增长高峰将持续6-8年。为此,教育部批准了一批高校成立了数据科学与大数据技术、大数据应用、智能科学与技术、人工智能等相关专业,为业界培养相应的机器学习专业人才。本课程就是对机器学习感兴趣的学员准备的。
2.这门课的主题是什么?
在介绍传统的机器学习理论的基础上,突出了机器学习目前主流的一些内容,包括深度学习的典型算法与应用、知识图谱、机器学习在电子推荐技术的应用等。
3.学习这门课可以获得什么?
从早期的统计学习、发展到联结主义的神经网络、直至深度神经网络的过程中,机器学习解决了企业应用的一些问题,辅助业务人员和管理人员做出更好的决策,在一些应用领域已经达到甚至超过人的智能水平,从而引发机器学习在金融、智能制造、零售、电子商务、电信等众多行业的广泛应用。通过本课程的学习,使学员可以初步了解机器学习的常用算法以及典型的应用领域,为更深入地学习高级机器学习以及实战打下基础。
4.这门课有什么特色和亮点?
机器学习是一门理论和实践并重的课程,其中的内容比较多,很多算法也有一定的难度。机器学习的应用也需要一定的经验和技巧。本课程参阅了大量文献资料,结合过去多年的数据分析研究和实践,重新梳理了机器学习的整个课程体系,使得内容尽量覆盖机器学习的基本内容,深入浅出,学生在此基础上可以钻研机器学习高级的算法。课程通过大量的选择题、填空和判断题检验和巩固学员对基本知识的理解。
5.这门课的学习方法建议
建议结合教材《机器学习》(人民邮电出版社,2018)、《机器学习案例实战》(人民邮电出版社,2019)学习,打好基础,线下动手练习,循序渐进。
课程大纲
第一单元 机器学习概论
介绍机器学习的发展、主要算法或方法及其主要应用领域,还涉及从事机器学习的准备工作。
1.1 机器学习应用
1.2 机器学习过程
1.3 机器学习常见问题
1.4 从事机器学习的准备
第二单元 决策树与分类算法
介绍常用的决策树算法ID3、C4.5、CART等、集成算法随机森林、梯度提升树和决策树的过拟合、连续属性离散化等问题;支持向量机的原理、应用;朴素贝叶斯模型、贝叶斯网络原理以及应用;判别分析和主分量分析等。
2.1 决策树算法
2.2 ID3算法
2.3 C4.5算法和CART算法
2.4 连续属性离散化、过拟合问题
2.5 集成学习
2.6 梯度提升树GBDT算法
2.7 PCA和SVD
2.8 支持向量机基本概念
2.9 支持向量机原理
2.10 支持向量机的应用
2.11 朴素贝叶斯模型
2.12 贝叶斯网络模型
2.13 贝叶斯网络的应用
2.14 判别分析
第三单元 神经网络基础
介绍前馈神经网络的基本概念、结构、梯度下降法以及常用应用等。
3.1 神经网络简介
3.2 神经网络相关概念
3.3 前馈神经网络算法
3.4 神经网络的应用
第四单元 聚类分析
介绍聚类的基本概念、常用的几种聚类算法,包括基于划分的聚类、基于密度的聚类、基于层次的聚类以及基于模型的聚类、EM算法等。
4.1 聚类分析的概念
4.2 聚类分析的度量
4.3 基于划分的聚类
4.4 基于密度聚类和基于层次聚类
4.5 基于模型的聚类
4.6 EM算法
第五单元 可视化分析
介绍可视化分析的基本作用、方法以及典型的教育数据分析应用。
5.1 可视化分析基础
5.2 可视化分析方法
5.3 在线教学数据分析
第六单元 关联分析
介绍关联分析的基本概念、典型的关联分析算法,包括Apriori算法以及典型应用。
6.1 关联分析基本概念
6.2 Apriori算法
6.3 关联规则应用
第七单元 回归分析
介绍回归分析的基本概念、分析过程以及线性回归、非线性回归及其典型应用。
7.1 回归分析基础
7.2 线性回归分析
7.3 非线性回归分析
第八单元 文本分析
介绍文本分析的基本概念、语言模型、词法句法和语义分析,以及知识图谱的基本概念、技术及其典型应用。
8.1 文本分析简介
8.2 文本分析基本概念
8.3 语言模型、向量空间模型
8.4 词法、分词、句法分析
8.5 语义分析
8.6 文本分析应用
8.7 知识图谱简介
8.8 知识图谱技术
8.9 知识图谱构建和应用
第九单元 分布式机器学习、进化计算
介绍分布式机器学习的基本原理、学习框架,决策树、k-均值聚类、多元线性回归的并行版本;遗传算法的基本概念、原理以及应用;蜂群算法的基本原理以及应用。
9.1 分布式机器学习基础
9.2 分布式机器学习框架
9.3 并行决策树
9.4 并行k-均值算法
9.5 并行多元线性回归模型
9.6 遗传算法基础
9.7 遗传算法的过程
9.8 遗传算法的应用
9.9 蜂群算法
第十单元 电子推荐系统
介绍电子推荐系统的基本概念、作用、结构、常用的电子推荐方法、电子推荐算法的评估指标和方法以及电子推荐的典型应用。
10.1 推荐系统基础
10.2 推荐系统结构
10.3 基于人口统计学的推荐、基于内容的推荐
10.4 基于协同过滤的推荐算法
10.5 基于图、PageRank、关联规则的推荐
10.6 其他推荐方法
10.7 推荐结果的评测方法
10.8 推荐结果的评测指标
10.9 推荐系统常见问题
第十一单元 深度学习
介绍深度学习的基本概念、卷积神经网络、循环神经网络、长短期记忆LSTM等典型算法及其在股票预测中的应用;生成对抗网络、强化学习、迁移学习、对偶学习等。
11.1 卷积基本概念
11.2 LeNet框架
11.3 卷积基本单元
11.4 卷积神经网络训练
11.5 基于卷积的股票预测
11.6 卷积神经网络的高级应用
11.7 循环神经网络RNN基础
11.8 循环神经网络的训练和示例
11.9 长短期记忆网络LSTM
11.10 基于LSTM的股票预测
11.11 生成对抗网络
11.12 强化学习
11.13 迁移学习
11.14 对偶学习