《大数据探索性分析》
课程简介
中国人民大学统计学院
吴翌琳
wuyilin@
数据每天都在产生,如何探索
• 一切行为动作都在生成数据。
• 一旦你持有了全部数据,你就某种程度上掌握了这
个世界或抓住了世界的轨迹。
• 但是你不可能在一个有几百万数据的大型Excel表或
数据库上遍历,获取图形,理解现实和处理它所生
成的数据。
• 因此你需要一个新的理念,去简化这些捕获的数据,
使之更加容易理解,方法更加简洁,使得数据适合
于建立数学模型和函数。
欧洲杯赛果预测
• 欧洲杯决赛,中国最大的体育赛前大数据决策平
台——足球魔方旗下数据研究院第一时间发布 《魔数
欧洲杯——决赛大数据前瞻》
• 报告显示,法国队在基本面和技战术层面上全面强
于葡萄牙队,夺冠概率更高。但是葡萄牙超级巨星
C罗拥有依靠个人发挥改变比赛走向的能力,是法
国夺冠道路上的最大变数。
本教材的结构
• 第1章 导论(1次课,2-3课时)
• 第2章 大数据背景下的抽样分析(3次课,9课时)
• 第3章 大数据的数据预处理(3-4次课,9- 12课时)
• 第4章 探索性数据分析方法(3-4次课,9- 12课时)
• 第5章 大数据的展示(3次课,9课时)
• 第6章 空间数据分析(3次课,9课时)
• 推荐学时16- 18次课,48-54课时
本教材的使用
• 使用对象:
1. 高校统计学专业教师
2. 应用统计专业硕士
3. 有统计学本科基础的各专业硕士研究生
4. 统计专业高年级的本科生
5. 其他各个领域的有数据分析需求的学生和从业人
员
培训的主要内容
数据抽样 数据预处 数据探索 数据展示 空间数据
•概率抽样 理 性分析 •单变量 分析
•非概率抽 •数据清洗 •可视化 •多变量 •空间自相
样 •数据变换 •投影寻踪 •分布形态 关
•大数据抽 •缺失值处 •独立成分 •高维数据 •时空扫描
样 理 •空间数据 •空间回归
•异常点检 •图形美化 •空间面板
测 •贝叶斯时
•变量选择 空模型
培训课程目标
• 简要介绍每一章的知识点
• 了解每一章的教学重点难点
• 如何引导学生使用好教材
• 如何锻炼学生探索性分析的能力
• 共同探讨教学方法
教材章节
• 第1章 导论
•第2章 大数据背景下的抽样分析
• 第3章 大数据的数据预处理
• 第4章 探索性数据分析方法
• 第5章 大数据的展示
• 第6章 空间数据分析
大数据时代是否需要抽样?
• 数据越多信息越丰富,数据量尽多为好。
• 大数据不是全样本,大数据也可能是有偏样本,怎
么办?
• 大数据分析和抽样并不矛盾。从效率和成本的角度
考虑,适当和合理的抽样也是有必要的。就像两个
极端,而我们总是要找到一个平衡点。
• “大样本=总体”的思想是错误的,理论上再大的
局部抽样可能不如随机抽样有代表性。
• 抽不抽样关键看你能不能实现全量运算或者接受实
现它的代价。
• 在分析阶段如果误差能够接受,占用空间小,速度
快,完全可以抽样或近似。
本章的主要内容
• 第1