数据分析方法

作者：Raab 文章来源：internet 2022-01-25 21:44:26

数据分析，重要的是数据分析的思维，⼯具等的掌握是次要的，分享下16个常⽤的数据分析⽅法，供⼤家⼀起学习进步。

⼀、描述统计

描述性统计是指运⽤制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

1、缺失值填充：常⽤⽅法：剔除法、均值法、最⼩邻居法、⽐率回归法、决策树法。

2、正态性检验：很多统计⽅法都要求数值服从或近似服从正态分布，所以之前需要进⾏正态性检验。常⽤⽅法：⾮参数检验的 K-量检验、 P-P 图、 Q-Q 图、 W 检验、动差法。

⼆、假设检验

1、参数检验

参数检验是在已知总体分布的条件下（⼀股要求总体服从正态分布）对⼀些主要的参数

(如均值、百分数、⽅差、相关系数等）进⾏的检验。

1）U 验使⽤条件：当样本含量 n 较⼤时，样本值符合正态分布

2）T 检验使⽤条件：当样本含量 n 较⼩时，样本值符合正态分布

A 单样本 t 检验：推断该样本来⾃的总体均数 μ 与已知的某⼀总体均数 μ0 (常为理论值或标准值)有⽆差别；

B 配对样本 t 检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件⽅⾯扱为相似；

C 两独⽴样本 t 检验：⽆法找到在各⽅⾯极为相似的两样本作配对⽐较时使⽤。

2、⾮参数检验⾮参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，⽽是针对总体的某些⼀股性假设（如总体分布的位罝是否相同，总体分布是否正态）进⾏检验。

适⽤情况：顺序类型的数据资料，这类数据的分布形态⼀般是未知的。

A 虽然是连续数据，但总体分布形态未知或者⾮正态；

B 体分布虽然正态，数据也是连续类型，但样本容量极⼩，如 10 以下；主要⽅法包括：卡⽅检验、秩和检验、⼆项检验、游程检验、 K-量检验等。

三、信度分析

检査测量的可信度，例如调查问卷的真实性。

分类：

1、外在信度：不同时间测量时量表的⼀致性程度，常⽤⽅法重测信度

2、内在信度；每个量表是否测量到单⼀的概念，同时组成两表的内在体项⼀致性如何，常⽤⽅法分半信度。

四、列联表分析

⽤于分析离散变量或定型变量之间是否存在相关。对于⼆维表，可进⾏卡⽅检验，对于

三维表，可作 Mentel-Hanszel 分层分析。列联表分析还包括配对计数资料的卡⽅检验、⾏列均为顺序变量的相关检验。

五、相关分析

研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关⽅向及相关程度。

1、单相关：两个因素之间的相关关系叫单相关，即研究时只涉及⼀个⾃变量和⼀个因变量；

2、复相关：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的⾃变量和因变量相关；

3、偏相关：在某⼀现象与多种现象相关的场合，当假定其他变量不变时，其中两个变量之间的相关关系称为偏相关。

六、⽅差分析

使⽤条件：各样本须是相互独⽴的随机样本；各样本来⾃正态分布总体；各总体⽅差相等。

分类

1、单因素⽅差分析：⼀项试验只有⼀个影响因素，或者存在多个影响因素时，只分析⼀个因素与响应变量的关系

2、多因素有交互⽅差分析：⼀顼实验有多个影响因素，分析多个影响因素与响应变量的关系，同时考虑多个影响因素之间的关系

3、多因素⽆交互⽅差分析：分析多个影响因素与响应变量的关系，但是影响因素之间没有影响关系或忽略影响关系

4、协⽅差分祈：传统的⽅差分析存在明显的弊端，⽆法控制分析中存在的某些随机因素，使之影响了分祈结果的准确度。协⽅差分析主要是在排除了协变量的影响后再对修正后的

主效应进⾏⽅差分析，是将线性回归与⽅差分析结合起来的⼀种分析⽅法，

七、回归分析

分类：

1、⼀元线性回归分析：只有⼀个⾃变量 X 与因变量 Y 有关，X 与 Y 都必须是连续型变量，因变量 y 或其残差必须服从正态分布。

2、多元线性回归分析使⽤条件：分析多个⾃变量与因变量 Y 的关系，X 与 Y 都必须是

连续型变量，因变量 y 或其残差必须服从正态分布。

1）变呈筛选⽅式：选择最优回归⽅程的变⾥筛选法包括全横型法（CP 法）、逐步回归法，向前引⼊法和向后剔除法2）横型诊断⽅法：

A 残差检验：观测值与估计值的差值要艰从正态分布

B 强影响点判断：寻找⽅式⼀般分为标准误差法、 Mahalanobis 距离法

C 共线性诊断：

诊断⽅式：容忍度、⽅差扩⼤因⼦法(⼜称膨胀系数 VIF)、特征根判定法、条件指针CI、⽅差⽐例

处理⽅法：增加样本容量或选取另外的回归如主成分回归、岭回归等

3、 Logistic 回归分析

线性回归模型要求因变量是连续的正态分布变⾥，且⾃变量和因变量呈线性关系，⽽Logistic 回归模型对因变量的分布没有要求，⼀般⽤于因变量是离散时的情况

分类：

Logistic 回归模型有条件与⾮条件之分，条件 Logistic 回归模型和⾮条件 Logistic 回归模型的区别在于参数的估计是否⽤到了条件概率。

4、其他回归⽅法⾮线性回归、有序回归、 Probit 回归、加权回归等

⼋、聚类分析

样本个体或指标变量按其具有的特性进⾏分类，寻找合理的度量事物相似性的统计量。

1、性质分类：

Q 型聚类分析：对样本进⾏分类处理，⼜称样本聚类分祈使⽤距离系数作为统计量衡量相似度，如欧式距离、极端距离、绝对距离等

R 型聚类分析：对指标进⾏分类处理，⼜称指标聚类分析使⽤相似系数作为统计量衡量相似度，相关系数、列联系数等

2、⽅法分类：1）系统聚类法：适⽤于⼩样本的样本聚类或指标聚类，⼀般⽤系统聚类法来聚类指标，⼜称分层聚类

2）逐步聚类法：适⽤于⼤样本的样本聚类

3）其他聚类法：两步聚类、 K 均值聚类等

九、判别分析

1、判别分析：根据已掌握的⼀批分类明确的样品建⽴判别函数，使产⽣错判的事例最

少，进⽽对给定的⼀个新样品，判断它来⾃哪个总体

2、与聚类分析区别

1）聚类分析可以对样本逬⾏分类，也可以对指标进⾏分类；⽽判别分析只能对样本

2）聚类分析事先不知道事物的类别，也不知道分⼏类；⽽判别分析必须事先知道事物

的类别，也知道分⼏类

3）聚类分析不需要分类的历史资料，⽽直接对样本进⾏分类；⽽判别分析需要分类历史资料去建⽴判别函数，然后才能对样本进⾏分类

3、进⾏分类：

1）Fisher 判别分析法：

以距离为判别准则来分类，即样本与哪个类的距离最短就分到哪⼀类，适⽤于两类判别；

以概率为判别准则来分类，即样本属于哪⼀类的概率最⼤就分到哪⼀类，适⽤于适⽤于多类判别。

2）BAYES 判别分析法：

BAYES 判别分析法⽐ FISHER 判别分析法更加完善和先进，它不仅能解决多类判别分析，⽽且分析时考虑了数据的分布状态，所以⼀般较多使⽤；

⼗、主成分分析

将彼此梠关的⼀组指标变适转化为彼此独⽴的⼀组新的指标变量，并⽤其中较少的⼏个新指标变量就能综合反应原多个指标变量中所包含的主要信息。

⼗⼀、因⼦分析

⼀种旨在寻找隐藏在多变量数据中、⽆法直接观察到却影响或⽀配可测变量的潜在因⼦、并估计潜在因⼦对可测变量的影响程度以及潜在因⼦之间的相关性的⼀种多元统计分析⽅法

与主成分分析⽐较：

相同：都能够起到済理多个原始变量内在结构关系的作⽤

不同：主成分分析重在综合原始变适的信息.⽽因⼦分析重在解释原始变量间的关系，是

⽐主成分分析更深⼊的⼀种多元统计⽅法

⽤途：

1）减少分析变量个数

2）通过对变量间相关关系探测，将原始变量进⾏分类

⼗⼆、时间序列分析

动态数据处理的统计⽅法，研究随机数据序列所遵从的统计规律，以⽤于解决实际问题；时间序列通常由 4 种要素组成：趋势、季节变动、循环波动和不规则波动。

主要⽅法：移动平均滤波与指数平滑法、 ARIMA 横型、量 ARIMA 横型、 ARIMAX 模型、向呈⾃回归横型、 ARCH 族模型

⼗三、⽣存分析

⽤来研究⽣存时间的分布规律以及⽣存时间和相关因索之间关系的⼀种统计分析⽅法

1、包含内容：

1）描述⽣存过程，即研究⽣存时间的分布规律

2）⽐较⽣存过程，即研究两组或多组⽣存时间的分布规律，并进⾏⽐较3）分析危险因素，即研究危险因素对⽣存过程的影响

4）建⽴数学模型，即将⽣存时间与相关危险因素的依存关系⽤⼀个数学式⼦表示出来。

2、⽅法：

1）统计描述：包括求⽣存时间的分位数、中数⽣存期、平均数、⽣存函数的估计、判断⽣存时间的图示法，不对所分析的数据作出任何统计推断结论

2）⾮参数检验：检验分组变量各⽔平所对应的⽣存曲线是否⼀致，对⽣存时间的分布没有要求，并且检验危险因素对⽣存时间的影响。

A 乘积极限法（PL 法）

B 寿命表法(LT 法)

3）半参数横型回归分析：在特定的假设之下，建⽴⽣存时间随多个危险因素变化的回归⽅程，这种⽅法的代表是 Cox ⽐例⻛险回归分析法

4）参数模型回归分析：已知⽣存时间服从特定的参数横型时，拟合相应的参数模型，更准确地分析确定变量之间的变化规律

⼗四、典型相关分析

相关分析⼀般分析两个变⾥之间的关系，⽽典型相关分析是分析两组变⾥（如 3 个学术能⼒指标与 5 个在校成绩表现指标）之间相关性的⼀种统计分析⽅法。典型相关分析的基本思想和主成分分析的基本思想相似，它将⼀组变量与另⼀组变量之间单变量的多重线性相关性研究转化为对少数⼏对综合变量之间的简单线性相关性的研究，并且这少数⼏对变量所包含的线性相关性的信息⼏乎覆盖了原变量组所包含的全部相应信息。

⼗五、 R0C 分析

R0C 曲线是根据⼀系列不同的⼆分类⽅式(分界值或决定阈）.以真阳性率（灵敏度)为纵坐标，假阳性率（1-特异度)为横坐标绘制的曲线⽤途：

1、 R0C 曲线能很容易地査出任意界限值时的对疾病的识别能⼒⽤途；

2、选择最佳的诊断界限值。 R0C 曲线越靠近左上⻆，试验的准确性就越⾼；

3、两种或两种以上不同诊断试验对疾病识别能⼒的⽐较，⼀股⽤ R0C 曲线下⾯积反映诊断系统的准确性。

⼗六、其他分析⽅法

多重响应分析、距离分祈、项⽬分祈、对应分祈、决策树分析、神经⽹络、系统⽅程、蒙特卡洛模拟等。

注：文/Raab，文章来源：internet，本文为作者独立观点，不代表学紧立场。

【版权提示】学紧倡导尊重与保护知识产权。未经许可，任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题，烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至ke@xueing.com，我们将及时沟通与处理。

好知识,值得被更多人看到