跳转至

项目1-数据分析

数据输入和输出

读取数据

read_csv()

readxl::read_excel()

  • [x] rename()修改列名,新列名替换指定旧列名,局部替换,推荐使用

set_names()修改列名,直接用新列名依次替换旧列名,整体替换,跟rename()功能相重复

数据输出

print()、printf()、sprintf()进行变量输出格式化输出格式化字符串输出

cat()结合paste()将多个字符串数据进行输出,比sprintf输出更灵活

paste()将多个对象(字符串、数字等)连接成一个字符串,字符串间会自带空格,用paste0()不带空格

文件输出

write_csv() 写入csv文件

数据清洗

基础操作

1,概览

glimpse() df数据展示,推荐

str() 跟上面功能重复。在现实列表列时会显示得更全些

head()显示指定前几行

View()打开一个交互式的数据框查看器窗口,其中以表格形式显示整个数据框的内容。

2,类型、结构转换

3,查漏补缺和去重

  • 查漏补缺

    规划化缺失值,read_csv(..., na = c("", "N/A")),将指定内容识读取为缺失值

  • 补缺

    tidyr::fill() 指定列,进行上下值补缺

    data$age <- ifelse(is.na(data$age), mean(data$age, na.rm = TRUE), data$age)

  • 去除缺失值

    • [x] data <- data %>% drop_na(),tidyr::drop_na(),更精确,可以指定需要考虑的列

    data <- na.omit(data),na.omit() 简单处理,含缺失就删除

  • 去重

    • [x] distinct()去重,可以根据指定列进行行数据去重,只返回去重后的指定列的内容(F),或去重后的所有列的内容(T)

    unique()返回向量或因子中的唯一值

    duplicated()标识向量或数据框中的重复元素,返回对应布尔值,重复为TRUE

数据增、改、删

mutate() 根据旧列添加新列,或者替换旧列数,配上across()多个列上应用相同的变换或统计函数,替换旧列或生成新列

filter() 行操作

map()对每个元素应用同一个函数,类比python中的apply()

分组聚合

group_by() 指定列进行分组,分组后再用summarize()后会保留分组列

cut()函数,进行固定范围值添加新组

ungroup() 取消分组,在使用管道符进行参数传递中使用的是同一个源数据,所以要及时撤销分组操作!

nrow() 计算数据框行数

n() 计算行数

count()计算唯一值出现次数,跟python不同

n_distinct()计算种类数,跟上面的唯一值次数指频数不同

多表连接

inner_join() 内连接

left_join()左连接

right_join()右连接

full_join() 全连接

semi_join()半连接,目的筛选左表数据类似交集但只保留做表数据。以右表数据作为标准,筛选左表中存在于右表中的数据,并不会返回右表中任何数据。右有左也有的数据。

anti_join()反连接,目的是筛选左表数据,跟半连接相反筛选右表没有的数据,返回在第一个数据框中存在而在第二个数据框中不存在的行。右无,左有的数据。

数据分析

描述性统计

  • 概览

    summary() 描述统计函数,pander(summary(data_set))更漂亮地展示。连续型变量处理为数值型,离散型变量处理为因子型,这样统计就能得到相应结果

    skim() 描述统计函数,展示的内容会更加详细,一般skim() %>% %>% kable_styling()

    table(cut_width(data_q2$PPG,2,boundary = 10))/50 实现连续变量分类化,计算每组的频率

    table()计算 factor对象中每个水平的频数

    cut_width()连续型的变量分成指定宽度的区间,返回因子型结果

  • 集中趋势指标

    skewness()计算数据偏度

    kurtosis()计算数据峰度系数

  • 离散趋势指标

    更多内容详看01 基础函数和数理统计

推断性统计

01 基础函数和数理统计

t-value、p-value、置信区间(及对应的置信度)、样本均值x_bar

t.test()通过假设检验,然后直接选取结果中的参数

aov() ANOVA方差分析,单因素、双因素、多因素

数据可视化

05 ggplot2

factor()在同一个图中展示x轴不用类别的箱线图用得到

模型

summary()查看model模型详细信息

lm()拟合线性回归模型的内置函数

glm()应该的更广,阶段性主要用于逻辑回归