茎叶图

优点:

  1. 直观展示数据分布:茎叶图通过将数据分成“茎”和“叶”两部分,能够直观地展示数据的分布情况。
  2. 保留原始数据:与直⽅图不同,茎叶图保留了原始数据的详细信息,每个数据点都可以从图中直接读取。
  3. 简单易绘制:茎叶图不需要复杂的计算或⼯具,⼿⼯即可快速绘制。
  4. 适合⼩数据集:茎叶图特别适合展示⼩数据集,能够清晰地显示每个数据点的位置。

缺点:

  1. 茎叶图只便于表示两位有效数字的数据;
  2. 茎叶图只方便记录两组的数据;
  3. 茎叶图不适用于大数据集。

作⽤:

  1. 数据探索:在数据分析的初期,茎叶图可以帮助快速了解数据的分布和集中趋势。
  2. 异常值检测:通过观察茎叶图,可以很容易地发现数据中的异常值或离群点。
  3. 数据⽐较:可以绘制多个茎叶图来⽐较不同数据集之间的分布情况。

茎叶图优化?

直方图

由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。

优点:

  1. 直观展示数据分布
  2. 适用于大规模数据集
  3. 可以通过多个直方图对比不同数据集的分布差异。

缺点:

  1. 丢失数据原始信息
  2. 绘制复杂

作用:

  1. 数据探索:直观感受的集中趋势、离散程度、偏态和峰态;发现数据的模式,比如是否呈正态分布、偏态分布或多峰分布。
  2. 识别异常值,发现数据中的极端情况。

条形图(柱状图)Vs 直方图:

pic

直方图 Vs 经验分布函数 Vs 概率密度函数:直方图和经验分布函数之间没什么关系;重点写一下直方图和概率密度函数之间的关系:直方图表示一个变量的值在范围内的概率,直方图是离散化的 pdf, pdf 是连续化的直方图(想象直方图的区间越来越小、越来越密。感觉有点微积分的味道?)

箱线图

优点:

  1. 方便多组数据比较;
  2. 识别异常值;
  3. 使用数据量大的情形

缺点:

  1. 丢失数据原始信息
  2. 对数据量较少的情况不够直观
  3. 不适用小数据情形

作用:

  1. 直观展示数据的分布特征(如中位数、四分位数、离散程度)。
  2. 识别异常值,帮助发现数据中的极端值。
  3. 便于对比多个数据集的分布差异,尤其适用于数据间的偏态比较。

改良版的箱线图:增加上下限阈值。四分位间距 $IQR = Q3 - Q1$, 上限阈值:$Q3 + 1.5 \times IQR$, 下限阈值:$Q1 - 1.5 \times IQR$;超出上述阈值的点定义为疑似异常值,并在图中标注(如用星号表示)