培训会员
热门点击:参观考察 中层干部 研发管理 采购管理 海关事务 秘书文秘 人力?#35797;?#31649;理 销售营销 绩效管理 仓储管理
您现在的位置: 森涛培训网 >> 公开课 >> 大数据管理培训 >> 课程介绍

Python大数据核心技术实战

Python大数据核心技术实战课程
[课程简介]:本课程特点是从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。 ...

【时间地点】 2019年10月28-30日 ?#26412;?nbsp;| 2019年11月26-28日 珠海 | 2019年12月26-28日 ?#26412;?/font>
【培训讲师】 张老师
【参加对象】 大数据分析应用开发工程师、大数据分析项目的规划咨询管理人员、大数据分析项目的IT项目高管人员、大数据分析与挖掘处理算法应用工程师、大数据分析集群运维工程师、大数据分析项目的售前和售后技术支持服务人员
【参加费用】 ¥7800元/人 (含教材、培训?#36873;?#32771;证费以及学习用具等费用) 食宿统一安排,费用自理。
【会务组织】 森涛培训网(www.ipizm.club).广州三策企业管理咨询有限公司
【咨询电话】 020-34071250;020-34071978(提前报名可享受更多优惠)
【联 系 人】 庞先生,邓小姐;13378458028、18924110388(均可加微信)
【在线 QQ 】 568499978 培训课纲 课纲下载    
【温馨提示】 本课程可引进到企?#30340;?#37096;培训,欢迎来电预约!
培训关键词:Python培训,大数据培训

Python大数据核心技术实战(张老师)课程介绍:

课程学习目标
1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序。
2.“Python数据清洗和特征提取”,提升学习深?#21462;?#38477;低学习坡?#21462;?BR>3.增加网络爬虫的原理和编写,从获取数据开始,重视将实践问题转换成实际模型的能力,分享工作中的实际案例或Kaggle案例:广告销量分析、环境数据异常检测和分析、数字图像?#20013;?#20307;识别、Titanic乘客存活?#35797;?#27979;、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。
4.强化矩阵运算、概?#20107;邸?#25968;理统计的知?#23545;?#29992;,掌握机器学习根本。
5.阐述机器学习原理,提供配套源码和数据。
6.以直观解释,增强?#34892;?#29702;解。
7.?#21592;?#19981;同的特征选择带来的预测效果差异。
8.重视项目实践,重视落地。思考不同算法之间的区别和联系,提高在实际工作中选择算法的能力。
9.涉及和讲解的部分Python库有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。

课程目标
本课程特点是从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python)、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。

培训内容介绍

模块一 机器学习的数学基础1 - 数学分析
1. 机器学习的一般方法和横向比较
2. 数学是有用的:以SVD为例
3. 机器学习的角度看数学
4. 复习数学分析
5. 直观解?#32479;?#25968;e
6. 导数/梯度
7. 随机梯度下降
8. Taylor展式的落地应用
9. gini系数
10. ?#36141;?#25968;
11. Jensen不等式
12. 组合数与信息熵的关系

模块二 机器学习的数学基础2 - 概?#20107;?#19982;贝叶斯先验
1. 概?#20107;?#22522;础
2. 古典概型
3. 贝叶斯公式
4. 先验分布/后验分布/共轭分布
5. 常见概率分布
6. 泊松分布和指数分布的物理意义
7. 协?#35762;?矩阵)和相关系数
8. 独立和不相关
9. 大数定律和中心极限定理的实践意义
10. 深刻理解最大似然估计MLE和最大后验估计MAP
11. 过拟合的数学原理与解决方案

模块三 机器学习的数学基础3 - 矩阵和线性代数
1. 线性代数在数学科学中的地位
2. 马尔科夫模型
3. 矩阵乘法的直观表达
4. 状态转移矩阵
5. 矩阵和向量组
6. 特征向量的思考和实践计算
7. QR分解
8. 对称阵、正交阵、正定阵
9. 数据白化及其应用
10. 向量对向量求导
11. 标量对向量求导
12. 标量对矩阵求导工作机制

模块四 Python基础1 - Python及其数学库
1. 解?#25512;鱌ython2.7与IDE:Anaconda/Pycharm
2. Python基础:列表/元组/字典/类/文件
3. Taylor展式的代码实现
4. numpy/scipy/matplotlib/panda的介绍和典型使用
5. 多元高斯分布
6. 泊松分布、幂律分布
7. 典型图像处理
8. 蝴蝶效应
9. 分形与可视化

模块五 Python基础2 - 机器学习库
1. scikit-learn的介绍和典型使用
2. 损失函数的绘制
3. 多种数学曲线
4. 多项式拟合
5. 快速傅里叶变换FFT
6. 奇异值分解SVD
7. Soble/Prewitt/Laplacian算子与卷积网络
8. 卷积与(指数)移动平均线
9. 股票数据分析

模块六 Python基础3 - 数据清洗和特征选择
1. 实际生产问题中算法和特征的关系
2. 股票数据的特征提取和应用
3. 一致?#32422;?#39564;
4. 缺失数据的处理
5. 环境数据异常检测和分析
6. 模糊数据查询和数据校正方法、算法、应用
7. 朴素贝叶斯用于鸢?#19981;?#25968;据
8. GaussianNB/MultinomialNB/BernoulliNB
9. 朴素贝叶斯用于18000+篇/Sogou新闻文本的分类

模块七 回归
1. 线性回归
2. Logistic/Softmax回归
3. 广义线性回归
4. L1/L2正则化
5. Ridge与LASSO
6. Elastic Net
7. 梯度下降算法:BGD与SGD
8. 特征选择与过拟合

模块八 Logistic回归
1. Sigmoid函数的直观解释
2. Softmax回归的概念源头
3. Logistic/Softmax回归
4. 最大熵模型
5. K-L散度
6. 损失函数
7. Softmax回归的实现与调参

模块九 回归实践
1. 机器学习sklearn库介绍
2. 线性回归代码实现和调参
3. Softmax回归代码实现和调参
4. Ridge回归/LASSO/Elastic Net
5. Logistic/Softmax回归
6. 广告投入与销售额回归分析
7. 鸢?#19981;?#25968;据集的分类
8. 交叉验证
9. 数据可视化

模块十 决策树和随机森林
1. 熵、联合熵、条件熵、KL散?#21462;?#20114;信息
2. 最大似然估计与最大熵模型
3. ID3、C4.5、CART详解
4. 决策树的正则化
5. 预剪枝和后剪枝
6. Bagging
7. 随机森林
8. 不平衡数据集的处理
9. 利用随机森林做特征选择
10. 使用随机森林计算样本相似度
11. 数据异常?#23548;?#27979;

模块十一 随机森林实践
1. 随机森林与特征选择
2. 决策树应用于回归
3. 多标记的决策树回归
4. 决策树和随机森林的可视化
5. 葡萄酒数据集的决策树/随机森林分类
6. 波士顿?#32771;?#39044;测

模块十二 提升
1. 提升为什?#20174;?#25928;
2. 梯度提升决策树GBDT
3. XGBoost算法详解
4. Adaboost算法
5. 加法模型与指数损失

模块十三 提升实践
1. Adaboost用于蘑菇数据分类
2. Adaboost与随机森林的比较
3. XGBoost库介绍
4. Taylor展式与学习算法
5. KAGGLE简介
6. 泰坦尼?#39034;?#23458;存活率估计

模块十四 SVM
1. 线性可?#31181;?#25345;向量机
2. 软间隔的改进
3. 损失函数的理解
4. 核函数的原理和选择
5. SMO算法
6. 支持向量回归SVR

模块十五 SVM实践
1. libSVM代码库介绍
2. 原始数据和特征提取
3. 葡萄酒数据分类
4. 数字图像的?#20013;?#20307;识别
5. SVR用于时间序列曲线预测
6. SVM、Logistic回归、随机森林三者的横向比较

模块十六 聚类(一)
1. 各种相似度度量及其相互关系
2. Jaccard相似度和准确率、召回率
3. Pearson相关系数与余弦相似度
4. K-means与K-Medoids及变种
5. AP算法(Sci07)/LPA算法及其应用

模块十七 聚类(二)
1. 密度聚类DBSCAN/DensityPeak(Sci14)
2. DensityPeak(Sci14)
3. 谱聚类SC
4. 聚类评价AMI/ARI/Silhouette
5. LPA算法及其应用

模块十八 聚类实践
1. K-Means++算法原理和实现
2. 向量量化VQ及图像近似
3. 并查集的实践应用
4. 密度聚类的代码实现
5. 谱聚类用于?#35745;?#20998;割

模块十九 EM算法
1. 最大似然估计
2. Jensen不等式
3. 朴素理解EM算法
4. 精确推导EM算法
5. EM算法的深入理解
6. 混合高斯分布
7. 主题模型pLSA

模块二十 EM算法实践
1. 多元高斯分布的EM实现
2. 分类结果的数据可视化
3. EM与聚类的比较
4. Dirichlet过程EM
5. 三维及等高线等?#25216;?#30340;绘制
6. 主题模型pLSA与EM算法

模块二十一 主题模型LDA
1. 贝叶斯学派的模型认识
2. Beta分?#21152;?#20108;项分布
3. 共轭先验分布
4. Dirichlet分布
5. Laplace平滑
6. Gibbs采样详解

模块二十二 LDA实践
1. 网络爬虫的原理和代码实现
2. 停止词和高频词
3. 动手自己实现LDA
4. LDA开源包的使用和过程分析
5. Metropolis-Hastings算法
6. MCMC
7. LDA与word2vec的比较
8. TextRank算法与实践

模块二十三 隐马尔科夫模型HMM
1. 概率计算问题
2. 前向/后向算法
3. HMM的参数学习
4. Baum-Welch算法详解
5. Viterbi算法详解
6. 隐马尔科夫模型的应用优劣比较

模块二十四 HMM实践
1. 动手自己实现HMM用于中文分词
2. 多个语言分词开源包的使用和过程分析
3. 文件数据格式UFT-8、Unicode
4. 停止词和标点符号对分?#23454;?#24433;响
5. 前向后向算法计算概率溢出的解决方案
6. 发现新词和分词效果分析
7. 高斯混合模型HMM
8. GMM-HMM用于股票数据特征提取

模块二十五 课堂提问与互动讨论

师资介绍
张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动?#21576;?#31227;动公司请?#35828;?#31995;统和?#21576;?#31227;动详单实时查询系统、中国银联大数据数据票据详单?#25945;ā?#26576;大型银行大数据记录系统、某大型通信运营商全国用户上网记录、?#21576;?#20132;通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)?#25945;?#39033;目等。

颁发证书
参加相关培训并通过考试的学员,可以获得:
工业和信息化部颁发的-《Python大数据工程师证书》。该证书可作为专业技术人员职?#30340;?#21147;考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。注:请学员带一寸彩照2张(背面注明姓名)、身份证?#20174;?#20214;一张。


培训课纲 课纲下载


更多Python大数据核心技术实战相关课程:

课程专题大数据管理专题 | Python培训大数据培训


关于我们 | 法律声明 | 服务条款 |热门课程列表 | 培训计划 | 网站地图 | 文字站点 | 加入收藏 | 用户中心
固话:020-34071250、34071978 值班手机:13378458028(可加微信) 传真:020-34071978
地址:广州市天河区东站路1号;常年法律顾问:?#26412;?#24066;双全律师事务所 邓江华主?#28201;?#24072;
粤ICP备13018032号 Copyright (c) 2019 All Rights Reserved 森涛培训网 三策咨询.企业培训服务
疯狂赌徒2投注