R语言之数据可视化

写于 2018-01-21 | 分类于 编程

在慕课网上找到一个R语言相关的视频教程,学习了一下。然后巩固了一下数据可视化的知识。

简介

  • 需要具备的知识和技能:计算机相关的技能、数学和统计学的知识、业务的专业知识
  • 数据开发者、数据研究者、数据创意者、数据商业化
  • 完整的数据分析流程:定义研究问题、定义理想的数据集、确定能够获取什么数据、获取数据、清理数据;探索性分析(数据可视化)、统计分析/建模等;解释/交流结果(数据可视化)、挑战结果、书写报告

数据特征

  • 数据集中趋势的测量:均值、中位数、众数
  • 数据分散趋势的测量:值域(最大值减去最小值)、方差、标准差、四分位距
  • 稳健统计量:中位数、四分位差(受极端值影响小)是;均值、标准差、值域(受极端值影响大)否
  • 一个变量的关系:柱状图、点图、箱图
  • 两个变量的关系:散点图(方向、形状、强度、极端值)
  • 一个分类变量的可视化:频率表、条形图
  • 两个分类变量的关系:关联表、相对频率表、分段条形图、相对频率分段条形图、马赛克图
  • 一个分类变量、一个数值变量的关系:并排箱图

R的绘图系统

  • 三大绘图系统:基本绘图系统(艺术家的调色板:绘图始于空白帆布)、Lattice绘图系统(使用一次函数调用)、ggplot2绘图系统(通过语法作图)
  • 基本绘图系统:绘图函数(graphics包)
  • Lattice绘图系统:绘图函数(lattice包、grid包)
  • ggplot2绘图系统:层(Aesthetics、Geometrics、Facets、Statics、Coordination、Theme)、绘图函数
  • 绘图之颜色:grDevice包、RColorBrewer包
  • 支持的图形设备:屏幕设备(探索性分析常用)、文件设备(打印/文章用图常用),grDevices包包含实现支持设备的代码
  • 生成图形的两种途径
  • 探索性数据分析:特点(快速、通常呈现在屏幕设备、不需要注重漂亮、六大原则)
  • 分析性作图的六大原则:凸显比较(谁跟谁比?)、凸显机制(因果/机制/解释)、凸显多元性(大于2个变量、逃离扁平)、整合数据、使用适当的图标尺度等、内容是王道

制作和发布报告

  • 可重复研究:独立的研究者/数据/分析方法/工具得到一致的证据
  • 可再现研究:让数据和分析过程透明;使用你的数据和分析方法得到你的结果
  • 可再现研究的工具:R Markdown即支持Markdown语法
  • 发布报告:R Markdown - R Pubs, 生成网页再发布到互联网上

参考资料