Summary()
描述统计
对数据框:
只是summary()
加上pander()
在 R 语言中,summary()
函数用于生成对象的摘要统计信息,包括描述性统计、分位数、最小值、最大值以及模型拟合的相关信息(例如线性回归模型的系数、标准误差、t 值和 p 值等)
函数定义:
summary(object, ...)
object
:要生成摘要统计信息的对象,如向量、数据框、线性模型等。
- ...
:其他参数,用于传递给底层的summary()
方法。
summary()
函数根据对象的类型生成相应的摘要统计信息
。
-
对于向量,它提供最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。
-
对于数据框,它提供每个变量的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值,以及因子变量的模式(mode)和频数(count)。
-
对于线性模型,它提供回归系数的估计值、标准误差、t值和p值,还提供残差的摘要统计信息和模型的拟合度量。
1.对向量进行摘要统计:¶
# 创建一个向量
x <- c(1, 2, 3, 4, 5)
# 生成摘要统计信息
summary(x)
输出:
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 2.00 3.00 3.00 4.00 5.00
2.对数据框进行摘要统计:¶
# 创建一个数据框
data <- data.frame(
x = c(1, 2, 3, 4, 5),
y = c("A", "B", "C", "D", "E"),
z = c(TRUE, FALSE, TRUE, FALSE, TRUE)
)
# 生成摘要统计信息
summary(data)
输出:
x y z
Min. :1 A:1 Mode :logical
1st Qu.:2 B:1 FALSE:2
Median :3 C:1 TRUE :3
Mean :3 D:1
3rd Qu.:4 E:1
Max. :5
3.对线性模型进行摘要统计:¶
线性回归:¶
lm()
: 用于拟合线性回归模型。
summary()
: 用于获取线性回归模型的摘要统计信息,包括回归系数、显著性检验等结果。
示例代码:
R
# 假设有一个因变量 y 和一个自变量 x
model <- lm(y ~ x)
summary(model) # 输出线性回归模型的摘要统计信息
这段输出是针对一个线性回归模型的摘要统计信息。下面解释每个部分的含义:
1. Call: 表示所调用的函数和参数,这里使用了`lm()`函数进行线性回归分析。
2. Residuals: 残差,表示观测值与回归模型的预测值之间的差异。
3. Coefficients: 回归系数,包括截距(Intercept)和自变量的系数(miles)。Estimate列给出了估计的回归系数的值,Std. Error列给出了估计值的标准误差,t value列给出了回归系数的t统计量,Pr(>|t|)列给出了对应的显著性水平的p-value。
在这个例子中,截距的估计值为16.46976,自变量(miles)的估计值为-0.05877。这些估计值的显著性通过t统计量和p-value进行了检验。
4. Signif. codes: 表示显著性水平的符号编码。例如,'***'表示p-value小于0.001,'**'表示p-value小于0.01,'*'表示p-value小于0.05,'.'表示p-value小于0.1,为空表示p-value大于或等于0.1。
5. Residual standard error: 残差标准误差,表示回归模型的残差的标准差。
6. Multiple R-squared: 多重R方,表示回归模型对观测值的解释程度,取值范围在0到1之间。在这个例子中,多重R方为0.5387,表示回归模型可以解释约53.87%的观测值的变异性。
7. Adjusted R-squared: 调整后的R方,考虑了自变量的数量和样本大小的影响,是对多重R方进行修正后的指标。
8. F-statistic: F统计量,用于检验回归模型整体的显著性。F统计量的值越大,表示回归模型整体越显著。
9. p-value: F统计量对应的p-value,表示对应的显著性水平下,回归模型整体是否显著。
根据给出的回归模型摘要统计信息,可以得出以下结论:
- 自变量(miles)的系数估计值为-0.05877,说明每增加一单位的miles,价格(price)会减少0.05877单位。
- 回归模型整体显著,因为F-statistic的值较大且p-value很小(小于0.05)。
- 多重R方为0.5387,表示回归模型可以解释大约53.87%的价格变异性。
根据给出的回归模型摘要统计信息,可以得出以下结论:
-
变量之间的关系:在这个例子中,通过线性回归分析发现,自变量(miles)与因变量(price)之间存在显著的负相关关系。每增加一单位的miles,价格(price)会减少0.05877单位。这意味着随着车辆使用里程的增加,车辆的价格往往会降低。
-
模型的显著性:回归模型整体是显著的,因为F-statistic的值较大且对应的p-value非常小(小于0.05)。这表明自变量(miles)对于解释因变量(price)的变异性是显著的。
-
模型的解释力:多重R方为0.5387,表示回归模型可以解释大约53.87%的价格变异性。这意味着模型可以解释观测数据中约53.87%的价格变动,剩余的变动可能由其他未包含在模型中的因素引起。
逻辑回归:¶
glm()
: 用于拟合逻辑回归模型。
summary()
: 用于获取逻辑回归模型的摘要统计信息,包括回归系数、显著性检验等结果。
示例代码:
# 假设有一个二分类因变量 y 和一个自变量 x
model <- glm(y ~ x, family = binomial)
summary(model) # 输出逻辑回归模型的摘要统计信息
上述函数可以根据具体情况选择适当的函数来进行相关性分析或回归分析,并获取显著性检验的结果。根据您的研究问题和数据类型,选择合适的函数和方法进行分析。
关于NA值的处理¶
在R语言中,summary()
函数用于生成有关数据的摘要统计信息,但它默认会剔除缺失值(NA) 并计算非缺失观测的统计量。
如果您希望在计算摘要统计信息时保留NA值,可以使用na.rm = FALSE
参数来禁用缺失值的剔除。将na.rm
参数设置为FALSE
将确保在计算统计量时包括缺失值。
下面是一个示例,展示如何使用summary()
函数,并设置na.rm = FALSE
以保留NA值:
# 创建一个包含NA值的向量
x <- c(1, 2, NA, 4, 5)
# 使用summary()函数计算摘要统计信息(剔除NA值)
summary(x)
# 输出:
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.000 2.000 4.000 3.000 4.000 5.000
# 使用summary()函数计算摘要统计信息(保留NA值)
summary(x, na.rm = FALSE)
# 输出:
# Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
# 1.000 2.000 4.000 3.000 4.000 5.000 1.000
x
。首先,我们使用summary(x)
计算摘要统计信息,并默认剔除了NA值。然后,我们使用summary(x, na.rm = FALSE)
再次计算摘要统计信息,但这次保留了NA值。通过设置na.rm = FALSE
,我们确保了NA值在计算统计量时被考虑进去,并在输出中显示了NA值的计数(NA's)。
请注意,na.rm
参数在许多R函数中都可以使用,用于控制对缺失值的处理方式。