项目1-数据分析

数据输入和输出¶

读取数据¶

read_csv()

readxl：：read_excel()

[x] rename()修改列名，新列名替换指定旧列名，局部替换，推荐使用

set_names()修改列名，直接用新列名依次替换旧列名，整体替换，跟rename()功能相重复

数据输出¶

print()、printf()、sprintf()进行变量输出、格式化输出、格式化字符串输出

cat()结合paste()将多个字符串数据进行输出，比sprintf输出更灵活

paste()将多个对象（字符串、数字等）连接成一个字符串，字符串间会自带空格，用paste0()不带空格

文件输出¶

write_csv() 写入csv文件

数据清洗¶

基础操作¶

1，概览

glimpse() df数据展示，推荐

str() 跟上面功能重复。在现实列表列时会显示得更全些

head()显示指定前几行

View()打开一个交互式的数据框查看器窗口，其中以表格形式显示整个数据框的内容。

2，类型、结构转换

常见数据类型

常见数据类型数据类型判断和转换
逻辑型

data$value <-ifelse(data$value == "Yes",TRUE,FALSE)
时间

lubridate：：mdy()将字符串日期时间转化为标准的数字形式的日期时间
转化为分类变量

factor()

as.factor()

3，查漏补缺和去重

查漏补缺

规划化缺失值，read_csv(..., na = c("", "N/A"))，将指定内容识读取为缺失值
补缺

tidyr：：fill() 指定列，进行上下值补缺

data$age <- ifelse(is.na(data$age), mean(data$age, na.rm = TRUE), data$age)
去除缺失值
- [x] data <- data %>% drop_na()，tidyr：：drop_na()，更精确，可以指定需要考虑的列
data <- na.omit(data)，na.omit() 简单处理，含缺失就删除
去重
- [x] distinct()去重，可以根据指定列进行行数据去重，只返回去重后的指定列的内容(F)，或去重后的所有列的内容(T)
unique()返回向量或因子中的唯一值

duplicated()标识向量或数据框中的重复元素，返回对应布尔值，重复为TRUE

数据增、改、删¶

mutate() 根据旧列添加新列，或者替换旧列数，配上across()在多个列上应用相同的变换或统计函数，替换旧列或生成新列

filter() 行操作

map()对每个元素应用同一个函数，类比python中的apply()

分组聚合¶

group_by() 指定列进行分组，分组后再用summarize()后会保留分组列

cut()函数，进行固定范围值添加新组

ungroup() 取消分组，在使用管道符进行参数传递中使用的是同一个源数据，所以要及时撤销分组操作！

聚类

summarize()、summarise() 统计分析列数据

slice_max()指定最大值的观测行

slice_min()

nrow() 计算数据框行数

n() 计算行数

count()计算唯一值出现次数，跟python不同

n_distinct()计算种类数，跟上面的唯一值次数指频数不同

多表连接¶

inner_join() 内连接

left_join()左连接

right_join()右连接

full_join() 全连接

semi_join()半连接，目的筛选左表数据，类似交集但只保留做表数据。以右表数据作为标准，筛选左表中存在于右表中的数据，并不会返回右表中任何数据。右有左也有的数据。

anti_join()反连接，目的是筛选左表数据，跟半连接相反，筛选右表没有的数据，返回在第一个数据框中存在而在第二个数据框中不存在的行。右无，左有的数据。

数据分析¶

描述性统计¶

概览

summary() 描述统计函数，pander(summary(data_set))更漂亮地展示。连续型变量处理为数值型，离散型变量处理为因子型，这样统计就能得到相应结果

skim() 描述统计函数，展示的内容会更加详细，一般skim() %>% %>% kable_styling()

table(cut_width(data_q2$PPG,2,boundary = 10))/50 实现连续变量分类化，计算每组的频率

table()计算 factor对象中每个水平的频数

cut_width()将连续型的变量分成指定宽度的区间，返回因子型结果
集中趋势指标

skewness()计算数据偏度

kurtosis()计算数据峰度系数
离散趋势指标

更多内容详看01 基础函数和数理统计

推断性统计¶

01 基础函数和数理统计

t-value、p-value、置信区间（及对应的置信度）、样本均值x_bar

t.test()通过假设检验，然后直接选取结果中的参数

aov() ANOVA方差分析，单因素、双因素、多因素

数据可视化¶

05 ggplot2

factor()在同一个图中展示x轴不用类别的箱线图用得到

模型¶

summary()查看model模型详细信息

lm()拟合线性回归模型的内置函数

glm()应该的更广，阶段性主要用于逻辑回归