大数据探索性分析-吴翌琳-全套课件.pdf-原创力文档

大数据探索性分析-吴翌琳-全套课件.pdf-原创力文档

《大数据探索性分析》

课程简介

中国人民大学统计学院

吴翌琳

wuyilin@

数据每天都在产生,如何探索

• 一切行为动作都在生成数据。

• 一旦你持有了全部数据,你就某种程度上掌握了这

个世界或抓住了世界的轨迹。

• 但是你不可能在一个有几百万数据的大型Excel表或

数据库上遍历,获取图形,理解现实和处理它所生

成的数据。

• 因此你需要一个新的理念,去简化这些捕获的数据,

使之更加容易理解,方法更加简洁,使得数据适合

于建立数学模型和函数。

欧洲杯赛果预测

• 欧洲杯决赛,中国最大的体育赛前大数据决策平

台——足球魔方旗下数据研究院第一时间发布 《魔数

欧洲杯——决赛大数据前瞻》

• 报告显示,法国队在基本面和技战术层面上全面强

于葡萄牙队,夺冠概率更高。但是葡萄牙超级巨星

C罗拥有依靠个人发挥改变比赛走向的能力,是法

国夺冠道路上的最大变数。

本教材的结构

• 第1章 导论(1次课,2-3课时)

• 第2章 大数据背景下的抽样分析(3次课,9课时)

• 第3章 大数据的数据预处理(3-4次课,9- 12课时)

• 第4章 探索性数据分析方法(3-4次课,9- 12课时)

• 第5章 大数据的展示(3次课,9课时)

• 第6章 空间数据分析(3次课,9课时)

• 推荐学时16- 18次课,48-54课时

本教材的使用

• 使用对象:

1. 高校统计学专业教师

2. 应用统计专业硕士

3. 有统计学本科基础的各专业硕士研究生

4. 统计专业高年级的本科生

5. 其他各个领域的有数据分析需求的学生和从业人

培训的主要内容

数据抽样 数据预处 数据探索 数据展示 空间数据

•概率抽样 理 性分析 •单变量 分析

•非概率抽 •数据清洗 •可视化 •多变量 •空间自相

样 •数据变换 •投影寻踪 •分布形态 关

•大数据抽 •缺失值处 •独立成分 •高维数据 •时空扫描

样 理 •空间数据 •空间回归

•异常点检 •图形美化 •空间面板

测 •贝叶斯时

•变量选择 空模型

培训课程目标

• 简要介绍每一章的知识点

• 了解每一章的教学重点难点

• 如何引导学生使用好教材

• 如何锻炼学生探索性分析的能力

• 共同探讨教学方法

教材章节

• 第1章 导论

•第2章 大数据背景下的抽样分析

• 第3章 大数据的数据预处理

• 第4章 探索性数据分析方法

• 第5章 大数据的展示

• 第6章 空间数据分析

大数据时代是否需要抽样?

• 数据越多信息越丰富,数据量尽多为好。

• 大数据不是全样本,大数据也可能是有偏样本,怎

么办?

• 大数据分析和抽样并不矛盾。从效率和成本的角度

考虑,适当和合理的抽样也是有必要的。就像两个

极端,而我们总是要找到一个平衡点。

• “大样本=总体”的思想是错误的,理论上再大的

局部抽样可能不如随机抽样有代表性。

• 抽不抽样关键看你能不能实现全量运算或者接受实

现它的代价。

• 在分析阶段如果误差能够接受,占用空间小,速度

快,完全可以抽样或近似。

本章的主要内容

• 第1

分享:
扫描分享到社交APP
上一篇
下一篇
发表列表
请登录后评论...
游客 游客
此处应有掌声~
评论列表

还没有评论,快来说点什么吧~