项目1-数据分析
数据输入和输出¶
读取数据¶
- [x] rename()修改列名,新列名替换指定旧列名,局部替换,推荐使用
set_names()修改列名,直接用新列名依次替换旧列名,整体替换,跟rename()功能相重复
数据输出¶
print()、printf()、sprintf()进行变量输出、格式化输出、格式化字符串输出
cat()结合paste()将多个字符串数据进行输出,比sprintf输出更灵活
paste()将多个对象(字符串、数字等)连接成一个字符串,字符串间会自带空格,用paste0()不带空格
文件输出¶
write_csv() 写入csv文件
数据清洗¶
基础操作¶
1,概览
glimpse() df数据展示,推荐
str() 跟上面功能重复。在现实列表列时会显示得更全些
head()显示指定前几行
View()打开一个交互式的数据框查看器窗口,其中以表格形式显示整个数据框的内容。
2,类型、结构转换
-
常见数据类型
常见数据类型 数据类型判断和转换
-
逻辑型
data$value <-ifelse(data$value == "Yes",TRUE,FALSE)
-
时间
lubridate::mdy()将字符串日期时间转化为标准的数字形式的日期时间
-
转化为分类变量
3,查漏补缺和去重
-
查漏补缺
规划化缺失值,read_csv(..., na = c("", "N/A")),将指定内容识读取为缺失值
-
补缺
tidyr::fill() 指定列,进行上下值补缺
data$age <- ifelse(is.na(data$age), mean(data$age, na.rm = TRUE), data$age)
-
去除缺失值
- [x] data <- data %>% drop_na(),tidyr::drop_na(),更精确,可以指定需要考虑的列
data <- na.omit(data),na.omit() 简单处理,含缺失就删除
-
去重
- [x] distinct()去重,可以根据指定列进行行数据去重,只返回去重后的指定列的内容(F),或去重后的所有列的内容(T)
unique()返回向量或因子中的唯一值
duplicated()标识向量或数据框中的重复元素,返回对应布尔值,重复为TRUE
数据增、改、删¶
mutate() 根据旧列添加新列,或者替换旧列数,配上across()在多个列上应用相同的变换或统计函数,替换旧列或生成新列
filter() 行操作
map()对每个元素应用同一个函数,类比python中的apply()
分组聚合¶
group_by() 指定列进行分组,分组后再用summarize()后会保留分组列
cut()函数,进行固定范围值添加新组
ungroup() 取消分组,在使用管道符进行参数传递中使用的是同一个源数据,所以要及时撤销分组操作!
-
聚类
summarize()、summarise() 统计分析列数据
slice_max()指定最大值的观测行
slice_min()
nrow() 计算数据框行数
n() 计算行数
count()计算唯一值出现次数,跟python不同
n_distinct()计算种类数,跟上面的唯一值次数指频数不同
多表连接¶
inner_join() 内连接
left_join()左连接
right_join()右连接
full_join() 全连接
semi_join()半连接,目的筛选左表数据,类似交集但只保留做表数据。以右表数据作为标准,筛选左表中存在于右表中的数据,并不会返回右表中任何数据。右有左也有的数据。
anti_join()反连接,目的是筛选左表数据,跟半连接相反,筛选右表没有的数据,返回在第一个数据框中存在而在第二个数据框中不存在的行。右无,左有的数据。
数据分析¶
描述性统计¶
-
概览
summary() 描述统计函数,pander(summary(data_set))更漂亮地展示。连续型变量处理为数值型,离散型变量处理为因子型,这样统计就能得到相应结果
skim() 描述统计函数,展示的内容会更加详细,一般skim() %>% %>% kable_styling()
table(cut_width(data_q2$PPG,2,boundary = 10))/50 实现连续变量分类化,计算每组的频率
table()计算 factor对象中每个水平的频数
cut_width()将连续型的变量分成指定宽度的区间,返回因子型结果
-
集中趋势指标
skewness()计算数据偏度
kurtosis()计算数据峰度系数
-
离散趋势指标
更多内容详看01 基础函数和数理统计
推断性统计¶
t-value、p-value、置信区间(及对应的置信度)、样本均值x_bar
t.test()通过假设检验,然后直接选取结果中的参数
aov() ANOVA方差分析,单因素、双因素、多因素
数据可视化¶
factor()在同一个图中展示x轴不用类别的箱线图用得到
模型¶
summary()查看model模型详细信息
lm()拟合线性回归模型的内置函数
glm()应该的更广,阶段性主要用于逻辑回归