R语言之数据可视化
写于 2018-01-21 | 分类于 编程
在慕课网上找到一个R语言相关的视频教程,学习了一下。然后巩固了一下数据可视化的知识。
简介
- 需要具备的知识和技能:计算机相关的技能、数学和统计学的知识、业务的专业知识
- 数据开发者、数据研究者、数据创意者、数据商业化
- 完整的数据分析流程:定义研究问题、定义理想的数据集、确定能够获取什么数据、获取数据、清理数据;探索性分析(数据可视化)、统计分析/建模等;解释/交流结果(数据可视化)、挑战结果、书写报告
数据特征
- 数据集中趋势的测量:均值、中位数、众数
- 数据分散趋势的测量:值域(最大值减去最小值)、方差、标准差、四分位距
- 稳健统计量:中位数、四分位差(受极端值影响小)是;均值、标准差、值域(受极端值影响大)否
- 一个变量的关系:柱状图、点图、箱图
- 两个变量的关系:散点图(方向、形状、强度、极端值)
- 一个分类变量的可视化:频率表、条形图
- 两个分类变量的关系:关联表、相对频率表、分段条形图、相对频率分段条形图、马赛克图
- 一个分类变量、一个数值变量的关系:并排箱图
R的绘图系统
- 三大绘图系统:基本绘图系统(艺术家的调色板:绘图始于空白帆布)、Lattice绘图系统(使用一次函数调用)、ggplot2绘图系统(通过语法作图)
- 基本绘图系统:绘图函数(graphics包)
- Lattice绘图系统:绘图函数(lattice包、grid包)
- ggplot2绘图系统:层(Aesthetics、Geometrics、Facets、Statics、Coordination、Theme)、绘图函数
- 绘图之颜色:grDevice包、RColorBrewer包
- 支持的图形设备:屏幕设备(探索性分析常用)、文件设备(打印/文章用图常用),grDevices包包含实现支持设备的代码
- 生成图形的两种途径
- 探索性数据分析:特点(快速、通常呈现在屏幕设备、不需要注重漂亮、六大原则)
- 分析性作图的六大原则:凸显比较(谁跟谁比?)、凸显机制(因果/机制/解释)、凸显多元性(大于2个变量、逃离扁平)、整合数据、使用适当的图标尺度等、内容是王道
制作和发布报告
- 可重复研究:独立的研究者/数据/分析方法/工具得到一致的证据
- 可再现研究:让数据和分析过程透明;使用你的数据和分析方法得到你的结果
- 可再现研究的工具:R Markdown即支持Markdown语法
- 发布报告:R Markdown - R Pubs, 生成网页再发布到互联网上