数据挖掘(一) 数据描述与分析

本文最后更新于:2023年2月28日 下午

1. 数据的概括性度量

相关概念

总体:包括所研究全部个体数据的集合

样本:总体中抽取的部分个体集合

样本量:样本个体数

参数:用来描述总体特征的概括性数字度量

统计量:用来描述样本特征的概括性数字度量

image-20220823200426333

数据类型:分类数据、顺序数据、数值数据

分类数据是对事物的一种分类,落在某一类的数据个数为频数 (frequency)。

集中趋势

数据分布的集中趋势,反映数据向中心值聚集的倾向。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import pandas as pd
# 众数
df.mode() # dataframe

# 中位数
# 顺序数据中n/2或(n+1)/2处的数值
df.median() # 计算每列中位数,返回Series
df.iloc[:,<col>].median() # 计算指定列中位数

# 分位数
# 如四分位数、十分位数、百分位数是将数据从小到大排列后4、10、100等分后各分位点的值
df.quantile(<p>,axis=0) # p为百分位后的分位点,可取0~1,如0.25处为下四分位数/0.75处为上四分位数

# 均值/平均数/期望
df.mean(axis) # axis=0各列所有行;axis=1各行所有列

# 方差
df.var()

离散程度

数据分布的离散程度,反映各变量远离中心值的程度。

对于不同类型的数据,离散程度的度量值主要为

  • 分类数据:异众比率
  • 顺序数据:四分位差
  • 数值数据:方差、标准差
  • 不同样本/总体间:离散系数
  • 异众比率 (variation ratio):非众数组的频率数占总频数的比率

    image-20220831095609926

    异众比率大说明众数的代表性差。

  • 四分位差/内距/四分间距 (quartile deviation):上四分位数与下四分位数的差

    image-20220831100530730

    反映中间50%数据的离散程度,说明中位数的代表性。

    数值越小,中间数据越集中,中位数代表性好。

  • 极差 (range):最大值与最小值之差

  • 平均差/平均离差 (mean deviation):各变量值与其平均数离差绝对值的和的平均数

    image-20220831101627869

  • 方差 (variance):通过绝对值消去离差正负号,为各变量值与其平均数离差平方的和的平均数(用自由度计算平均数)

    自由度 (degree of freedom):计算某一统计量时,取值不受限制的变量个数。如在计算方差时,限制条件是样品平均数,因此可自由取值的变量数为n1n-1

    自由度的计算:df=nkdf = n - kdfdf自由度,nn样本个数,kk约束条件个数)

    自由度是在用样本统计量推断总体参数时,为支持“统计量与总体参数相等”的理论假设提出的。 kk 通常表示实际需要计算的参数的数量。例如,一组数据,平均数一定,则这组数据有n1n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n2n-2个数据可以自由变化。

    image-20220831102808830

  • 标准差 (standard deviation):方差的平方根。具有量纲,与变量值的计量单位相同。

    image-20220831104829451

    image-20220831104842416

  • 标准分数/zz分数 (standard score):变量值与平均数的离差除以标准差可得到每个变量的标准分数,反映变量在该组数据中的相对位置。

    image-20220831104907567

    如某数的标准分数为1.5-1.5,则该数低于均值1.51.5倍的标准差。

    标准分数的公式同样可以用作数据标准化,消除量纲影响。它使数据的均值为 00,标准差为 11,并未改变数据分布的形状。

  • 离散系数/变异系数 (coefficient of variation):标准差与均值之比,用于比较平均水平或量纲不同的不同组别数据的离散程度。

    image-20220831111128706

    离散系数越大,离散程度越大。

  • 离群点/异常值 (outlier) 判断方法

    1. 经验法则

      对于对称分布的数据,

      image-20220831112135679

      因此,在平均数±3\pm 3个标准差外的数值为离群点。

    2. 切比雪夫不等式 (Chebyshev’ s inequality)

      image-20220831112632721

      k>0,μ 是均值, σ 是标准差。上式意为至少有11k21-\frac{1}{k^2}的概率变量数值落在均值±k\pm k个标准差的范围内。

      k=2,3,4k=2,3,4时:

      image-20220831113106519

分布形状

数据分布的形状,反映数据偏斜程度、分布扁平程度、是否对称等。

  • 偏态 (skewness):数据分布的不对称性

    利用中位数、平均数、众数间关系大体判断偏态:

    众数M0M_0,中位数McM_c,平均数xˉ\bar x

    image-20220831113832929

  • 偏态系数:对数据分布不对称性的度量值,记作SKSK

    image-20220831180455856

    image-20220831180603516

    偏态系数为00,分布是对称的(离差三次方的正负离差抵消);偏态系数为正,分布右偏;偏态系数为负,分布左偏。

    偏态系数越大,偏斜程度越大。

  • 峰态 (kurtosis):数据分布的平峰或尖峰程度

  • 峰态系数:对数据分布峰态的度量值,记作KK

    image-20220831183544972

    峰态系数为00,为标准正态分布;峰态系数为正,尖峰分布;峰态系数为负,平峰分布。

    image-20220831183832148

2. 基本图表

直方图/折线图/饼图

表示分类数据的频数分布。

累积频数图/累计频率图

累积频数 (cumulative frequencies):将顺序数据的频数按一定方向逐级累加。

从顺序数据开始处向后累加为向上累积;

从顺序数据结束处向前累加为向下累积;

环形图

相对饼图表示单个样本或总体的频数分布,环形图可以表示多个样本或总体。

茎叶图

由数值组成,以指定位数数值为“茎”,指定位数数值为“叶”,可以反映数据的离散程度和分布形状。

image-20220901194035318

箱线图

箱线图 (box plot):由一组数据的最大值、最小值、中位数、两个四分位数共五个特征组成。

image-20220901193425064

箱线图可以反映数据分布特征:

image-20220901193502089

多个单批箱线图并列易于直观比较:

image-20220901193556281

3. 聚合统计

数据聚合与分组运算

参考资料

  • 《统计学》 贾俊平

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!