北太天元科普：假设检验

作者：北太天元卢朓发布时间：2024-10-14

P检验（即假设检验中的P值检验）简单介绍一下，后面给出北太天元上的用于假设检验的函数。

P检验的定义

P检验是统计学中用于判断假设是否成立的一种方法。在假设检验中，我们通常会提出一个原假设（H0）和一个备择假设（H1）。原假设通常是我们想要拒绝的假设，而备择假设是我们希望接受的假设（如果原假设被拒绝的话）。P值就是在这个背景下计算出来的，它表示在原假设成立的情况下，观测到当前数据或更极端数据出现的概率。

P值的计算方式

P值的计算通常涉及以下几个步骤：

1. 选择检验统计量：根据数据的类型和分布，选择适当的检验统计量（如Z值、t值、F值等）。

2. 计算检验统计量的值：使用观测数据计算所选检验统计量的具体数值。

3. 确定P值：根据检验统计量的值和其对应的分布，计算P值。这通常涉及查找分布表或使用统计软件。

需要注意的是，P值的计算依赖于原假设的分布假设。如果原假设的分布假设不成立，那么P值可能不准确。

P值的意义和应用

P值的意义在于它提供了一个量化的标准来判断原假设是否应该被拒绝。在常见的显著性水平（如0.05、0.01、0.001）下，如果P值小于显著性水平，我们通常认为有足够的证据拒绝原假设，接受备择假设。

在模型特征选择中，P检验的应用非常广泛。通过计算每个特征与目标变量之间的P值，我们可以判断哪些特征与目标变量之间存在显著的线性关系。然后，根据设定的显著性水平（如P<0.05），我们可以选择出那些与目标变量具有显著线性关系的特征，用于构建模型。这有助于提高模型的解释性和预测性能。

然而，需要注意的是，P值只是判断特征重要性的一个方面。在实际应用中，我们还需要结合其他方法（如特征的重要性评分、模型的性能评估等）来综合判断特征的重要性。此外，P值也受到样本大小、数据分布和检验方法等因素的影响，因此需要谨慎解读。

北太天元的用于检验的函数

在北太天元中，进行假设检验时可以使用多个函数，这些函数根据检验类型和数据的不同特性而有所区别。以下是一些常用的假设检验函数及其简介：

1. 正态分布参数检验

ztest：用于已知方差的单个总体均值检验。当总体服从正态分布，且方差已知时，可以使用此函数。调用格式如[h, p, ci, zval] = ztest(x, mu0, sigma, 'alpha', alpha,'Tail', tail)，其中x为样本数据，mu0为假设的总体均值，sigma为已知的总体标准差，alpha为显著性水平，tail用于指定检验的类型（双侧、左侧或右侧）。
ttest：用于未知方差的单个总体均值检验。当总体服从正态分布，但方差未知时，可以使用此函数。

2. 双样本检验

ttest2：用于未知方差的两个正态总体均值差的检验。当需要比较两个独立样本的均值是否存在显著差异时，可以使用此函数。

3. 非参数检验

jbtest：用于单样本正态分布的Jarque-Bera检验。它检验样本数据是否来自正态分布。
kstest：用于单样本分布的Kolmogorov-Smirnov检验。它可以检验样本数据是否来自指定的连续分布。
kstest2：用于双样本同分布的Kolmogorov-Smirnov检验。它检验两个样本是否来自同一连续分布。
ranksum：用于双样本同分布的Wilcoxon秩和检验。当样本数据不满足正态分布假设时，可以使用此函数来检验两个样本是否来自同一分布。

4. 绘图检验

normplot：用于单样本正态分布的概率纸检验。通过绘制样本数据的正态概率图，可以直观地判断数据是否服从正态分布。
qqplot：用于绘制双样本同分布检验的分位数-分位数图（QQ图）。通过比较两个样本的分位数，可以判断它们是否来自同一分布。暂时还没有，请参考我在b站的实现：【专栏转视频-北太天元学习45:分位数-分位数画图(qqplot)简介】 https://www.bilibili.com/video/BV1k94y1x7go/?share_source=copy_web&;vd_source=2adc5aa7a702b808eb8b31dbd210f954

此外，还有vartest和vartest2等函数用于方差检验，分别用于单个正态总体方差和两个正态总体方差的比较检验。

总的来说，北太天元提供了丰富的假设检验函数，用户可以根据数据的特性和检验需求选择合适的函数进行统计分析。