浙江大学数学科学院继续教育中心

求是大数据

【人工智能】机器学习课程介绍

自2016年Alphago打败围棋大师李世石，机器学习这个词引起了大众的热议。什么是机器学习？他的基础编程语言是什么？知数学院人工智能课程从Python基础开始，深入讲述机器学习中的各类算法与挖掘方法，结合项目实战与企业实训，让学员更透彻的了机器学习。

培训对象

• 在校计算机，统计学，数学相关专业的大学生

• 目前正在从事数据分析相关工作的人员

• 目前正在从事大数据系统开发， Java开发并想转行机器学习的工程师

• 有一定计算机和数学基础，对机器学习有兴趣的各类人士

课程目标

通过对Python基础编程语法、Python科学计算和数据分析工具包、机器学习各种算法原理和技术以及机器学习过程中常用的技巧和方法的学习，结合经典机器学习项目实战训练，了解人工智能，机器学习，大数据生态圈的关系，最终轻松迈进人工智能领域。

学习方式

三种学习方式，可根据您自身情况进行灵活选择。三种学习方式价格不等，详请询问官网客服人员。

方式一．在线点播（视频＋直播答疑＋作业＋测试＋就业推荐）

方式二：在线直播（线下面授课程同步直播）

方式三：线下面授

培训周期

1. 在线点播学习周期：时间不限（根据个人情况而定），但平台学习时间为1年， 1年后如果课程还未学完，可根据自身情况向班主任申请延期!

2. 在线直播学习周期：学习周期同线下面授

3. 线下面授学习周期：全日制3个月，周末班5个月

就业方向

• 人工智能算法工程师

• 机器学习工程师

• 推荐系统工程师

• 数据挖掘工程师

第一阶段 Python与数据分析

Python是非常流行的数据科学和机器学习语言，是通向人工智能必须要过的第一关。本阶段你将学习三个部分的内容：Python基础编程， Python科学计算和Python数据分析。通过本阶段的学习，你将掌握python的编程语法和常用技巧，并系统学习python 中用于数据分析和机器学习的常用工具包，包括numpy, scipy, pandas, Matplotlib等，为后续的机器学习课程打下坚实的基础。人生苦短，我学Python 。

课程一 Python基础编程

课程介绍：这是学习Python编程的入门课程，首先通过Python和其他主流编程语言的对比，明确了Python适用的场景。然后由浅入深的介绍了Python语言的数据类型以及各种语法，帮助学员理解和使用。最后特别讲解了工作中比较常用且容易出错的的功能，如输入输出、字符和编码以及正则表达式。通过本门课程，可以为后续其他数据科学相关课程的学习打下基础。

章节1: Python基础编程

课程二 Python科学计算

课程介绍：这是学习Python编程的入门课程，首先通过Python和其他主流编程语言的对比，明确了Python适用的场景。然后由浅入深的介绍了Python语言的数据类型以及各种语法，帮助学员理解和使用。最后特别讲解了工作中比较常用且容易出错的功能，如输入输出、字符和编码以及正则表达式。通过本门课程，可以为后续其他数据科学相关课程的学习打下基础。

章节1: 数据科学工具包： Numpy

章节2: 操作多维数组： ndarray

章节3: 数据科学工具包： Scipy

课程三 Python数据分析

课程介绍：本门课程主要介绍两个数据分析工具包的用法： Pandas和Matplotlib。Pandas是进行数据分析和机器学习的基础包， Matplotlib是Python做可视化使用的最基础广泛的一个包，合理的对数据可视化有利于更好的理解数据，展示数据，应用数据。

章节1 : 数据分析与Pandas

章节2: 可视化与Matplotlib

章节3: 机器学习基本包准备篇

第二阶段机器学习从入门到精通

本阶段将系统性的学习机器学习各种算法和技术，包括：

监督学习的分类算法和回归舞法；
分类算法中重点介绍决策树，逻辑回归，SVM, KNN和朴索贝叶斯等算法
非监督学习的聚类算法和关联算法；
推荐算法和深度学习等热门的应用和技术；
各种模型的评估验证的指标和方浩，
提升模型效果的数据准备和特征工程技巧

课程一 机器学习入门

课程介绍：这是机器学习的入门课程，首先通过一个生活中的例子去理解数据挖掘和机器学习的概念，然后介绍数据挖掘解决的6大类问题，常用的机器学习算法，以及经典应用案例。同时还介绍机器学习的方法论和流程，以及与数据仓库， OLAP之间的关系。最后还给出如何成为数据科学家的一些建议。在理解了机器学习概念之后，本门课程还简单回顾了基础数理统计知识以及常用的探索性数据分析方法，为后续学习做一个铺垫。

章节1 : 数据挖掘和机器学习概述

章节2：数据理解和探索性分析

课程二分类模型及算法

课程介绍：本门课程介绍了机器学习中最重要的分类问题的常用算法和模型评估方法。先从一个真实的案例入手，教会学员十分钟快速构建第一个分类模型，然后讲解模型优化的一些方向，以及如何评估和验证一个分类模型的好坏。最后重点介绍常用的五种分类算法：逻辑回归， K近邻，决策树，支持向量机(SVM)和朴素贝叶斯。

章节1 : 构建第一个分类模型

章节2: 分类模型评估和验证

章节3: 逻辑回归算法

章节4: K近邻算法

章节5: 决策树算法

章节6: 支持向量机算法

章节7: 朴素贝叶斯算法

课程三数据准备和特征工程

课程介绍：数据准备和特征工程是机器学习中最重要的—个模块之— ，数据决定了模型的上限，算法只不过是无限逼近这个上限而已。数据准备工作会占据机器学习工作的大部分时间，本门课程详细和全面的介绍各种数据准备和特征工程的方法，主要包括对数据记录级处理，特征构造，特征转换，特征降维和特征选择。一个好的特征工程工作会大大提升模型的性能。

章节1 : 特征构造

章节2：特征转换

章节3：特征降维

章节4：特征选择

课程四回归模型及算法

课程介绍：回归模型是机器学习中最重要的预测模型之一，用于对数值类型的目标变量的预测，例如收入预测，房价预测等。本门课程详细和全面的介绍回归模型的常用算法，如线性回归，非线性回归，分类回归树等，以及对回归模型的评估和验证方法等。

章节1 : 线性回归

章节2：非线性回归

章节3：分类回归树

课程五集成学习和模型融合

课程介绍：三个臭皮匠，顶个诸葛亮！如何把多个强模型融合起来变得更强，或者把多个弱模型融合起来变成强模型，这就是本门课程要讲的内容。首先介绍模型融合的bagging和boosting思想，然后重点介绍几个经典的集成学习算法：随机森林， GBDT, 以及在Kaggle数据竞赛中所向披靡的大杀器XGboost。

章节1 : 模型融合策略

章节2：随机森林算法

章节3：GBDT

章节4：Xgboost

课程六非监督学习算法

课程介绍：非监督学习是机器学习中除了监督学习外的另外一大类任务，常见的非监督学习方法有聚类分析和关联规则，本门课程就是重点介绍这两种方法。聚类分析中会介绍各种不同的距离的度虽，以及Kmeans算法的基本原理，关联规则会介绍关联规则的基本概念以及发现频繁项集的常用算法Apriori 。

章节1 : 聚类问题和算法

章节2：关联问题和算法

课程七机器学习延伸

课程介绍：在之前的课程中大家已经学习了机器学习中的各种监督学习和非监督学习的算法，在本门课程中，我们将学习互联网领域最常见的—个应用——推荐系统的相关算法，包括矩阵分解和协同过滤等。深度学习是近年来机器学习非常火的一个分支领域，我们在本门课程中也会对深度学习做—个简单的介绍和入门。品后我们会给各位学员介绍目前最常用的—些数据挖掘和机器学习工具包，包括SAS, SPSS, R, Rapidminer等。

章节1 : 推荐系统算法

章节2：从机器学习到深度学习

章节3：机器学习工具包

第三阶段机器学习项目实战

本阶段进入到机器学习项目的实战训练，基于第二阶段学习到的各种监督学习和非监督学习的算法，将来学习在实际工作过程中如何解决真实的业务问题。本阶段共有6个项目实战：有3个分类相关的问题（其中有1个文本分类和1个图像分类）； 1个回归预测问题， 1个非监督的聚类问题和1个推荐系统项目。我们精选的这6个项目都是各行各业最经典的应用，学完之后相信各位学员都可以出山了。

项目1 : 构建信用评分模型

本门课程通过—个真实的案例来讲解用户信用评分模型的完整构建过程，会严格按照CRISP-DM的业务理解－＞数据理解－＞数据准备－＞模型构建－＞模型评估－＞模型应用6个步骤来阐述。课程中还会涉及到信用评分领域独特的地方，例如通过IV来评估变量的相关性， KS值评估模型表现以及如何把信用概率转换为信用分数（常用的千分数）

项目2: 对文档进行自动分类

本门课程属于文本挖掘（自然语言处理NLP)领域的一个经典应用案例，项目目标是开发一个算法，能自动的对给定的每一篇文章逬行频道分类，例如分为“体育类”，“财经类”，“旅游类”等。涉及到的新技术会包含中文分词，TF-IDF算法，Word2Vec算法等，最后还是会通过机器学习的分类算法来实现自动分类。

项目3: 图像分类识别

本门课程属于计算机视觉领域的一个经典应用案例，也是目前最能体现人工智能强大之处的应用场景。目前最好的图像识别算法是深度学习的CNN（卷积神经网络），但是它暂时不在我们本门课程之列，本门课程中，我们会采用传统的特征工程和机器算法来训练一个图像识别模型，同样也能达到—定的精确度，学习本门课程将为今后的深度学习做一个很好的铺垫

项目4: 预测房价

本门课程是机器学习中的回归模型的经典应用场景。我们使用Kaggle竞赛平台中的这个案例数据来讲解完整的构建一个回归模型的流程，严格按照CRISP-OM的业务理解－＞数据理解－＞数据准备－＞模型构建－＞模型评估－＞模型应用6个步骤来阐述。课程中会包含构建一个回归预测模型中的各种经验和技巧的讲解。

项目5 创建客户细分

本门课程是机器学习中的聚类分析的经典应用场景。物以类聚人以群分，当企业面对大量的消费者用户时，他不可能对所有的用户做到真正的1对1的营销，这个时候往往就需要通过聚类分析先对用户进行细分，然后针对细分人群制定针对性的营销策略。本门课程结合企业中的真实数据和业务场景，讲解构建用户细分模型的完整过程，同时还包括模型完成之后的业务咨询方案和建议、协同过滤等。

项目6: 构建电影推荐系统

推荐系统是当前互联网领域最常见和最有价值的大数据应用方向之一。曾经的Netflix百万美金推荐系统算法大赛吸引了众多好手投身这个领域，也推动了推荐系统的蓬勃发展。本门课程将站在巨人的肩膀上，结合Kaggle竞赛中的电影推荐赛题，详细介绍经典推荐系统算法，例如SVD矩阵分解和协同过滤等。