图书

课程

文章

专题

电子书

从Excel到R 数据分析进阶指南

作者: 王彦平（蓝鲸）

译者:

编辑: 赵轩

分类: R语言

图书目录:

详情

Excel是数据分析中最常用的工具。本书通过R与Excel的功能对比介绍如何使用R通过函数式编程完成Excel中的数据处理及分析工作。我们总结出最常用的50个函数。通过这些函数介绍如何通过R完成数据生成和导入、数据清洗、预处理，以及最常见的数据筛选，回归预测和假设检验等最常见的操作。

图书摘要

版权信息

书名：从Excel到R数据分析进阶指南

您购买的人民邮电出版社电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。

如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。

作者简介

王彦平 (蓝鲸)，Google分析个人资格认证，专注于网站数据分析实践及Google Analytics应用研究。创建“蓝鲸的网站分析笔记”博客分享网站分析经验与技巧，被Avinash Kaushia先生推荐为探索Google Analytics必读的中文博客。同时王彦平还是艾瑞网专家，艾瑞商学院讲师，Digital Analytics Association会员和互联网著名开放式分类目录（Open Directory Project）DMOZ网站的志愿编辑。

王彦平推崇以用户体验为中心的网站数据分析实践，阐释了目标、用户、体验三位一体的网站分析体系。相信GIGO（Garbage In Garbage Out）原则是帮助分析师发现数据价值的关键要素，网站追踪代码设计则是确保业务与数据彼此相连，赋予数据灵魂的重要环节。

王彦平是《网站分析实战—如何以数据驱动决策，提升网站价值》《人人都是网站分析师—从分析师的视角理解网站和解读数据》两本书的作者，及《流量的秘密—Google Analytics网站分析与优化技巧》（第2版）的译者。其中面向初学者的《人人都是网站分析师》一书被Brian Clifton博士(Google Web Analytics欧洲负责人及 Google Analytics Individual Qualification 创建者)推荐为新人入门必备书籍。

本书的姊妹篇《从Excel到Python——数据分析进阶指南》已上市。

王彦平拥有通讯、地产、汽车、零售等多个行业的网站数据分析及优化经验，服务的客户包括中国联通、链家地产、摩点众筹、克莱斯勒、一汽丰田、雷克萨斯、北京现代、海南航空、加多宝、玛萨玛索、中国日报、三精制药等。

电子邮件：cliff1980@gmail.com

新浪微博：@蓝鲸碎碎念

微信公众号：bluewhale_cc

第1章　生成数据表

常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel中的“文件”菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。

1.1 导入数据表

R支持从多种类型的数据导入。下面分别是从csv格式文件导入数据并创建数据表的方法。导入数据的代码是最简模式，里面有很多可选参数设置，例如列名称、索引列、数据格式等。感兴趣的朋友可以使用help函数来查看完整的使用方法。

#导入csv数据表
data=data.frame(read.csv("data.csv"))

#查看read.csv的使用方法
help("read.csv")

1.2 创建数据表

另一种方法是通过直接写入数据来生成数据表。Excel中直接在单元格中输入数据，R中通过下面的代码来实现。数据表一共有7行数据，每行有5个字段。在数据中我们特意设置了一些NA值和有问题的字段，例如包含空格和重复值等。后面将在数据清洗步骤进行处理。后面我们将统一以DataFrame的简称df来命名数据表。

#手动创建数据表
df<-data.frame(id=c(1001,1002,1003,1004,1005,1006,1006),
city=c(" Beijing","SH","  guangzhou","shenzhen  "," shanghai ","BEIJING","BEIJING"),
age=c(23,44,54,32,34,32,32),
category=c("100-A","100-B","110-A","110-C","210-A","130-F","130-F"),
price=c(1200,NA,2133,5433,NA,4432,4432))

这是刚刚创建的数据表，我们没有设置索引列，price字段中包含有NA值，city字段中还包含了一些脏数据。最后一行包含了重复值。

第2章　数据表检查

R中处理的数据量与在Excel中处理的数据量相比会大一些，因此我们无法一目了然地了解数据表的整体情况，必须要通过一些方法来获得数据表的关键信息。数据表检查的另一个目的是了解数据的概况，例如整个数据表的大小、数据格式、是否有空值和重复项和具体的数据内容，为后面的清洗和预处理做好准备。

2.1 数据维度(行列)

Excel中可以通过Ctrl+向下的光标键，和Ctrl+向右的光标键来查看行号和列号。R中使用dim()函数来查看数据表的维度，也就是行数和列数，函数返回的结果(7,5)表示数据表有7行，5列。下面是具体的代码。

#查看数据维度
dim(df)
[1] 7 5

2.2 查看数据表

使用fix()函数可以通过表格的形式对数据表进行查看，在可视化的数据编辑器中可以像Excel一样查看数据表的信息，并且可以对字段类型和变量名称进行修改。

#查看数据表
fix(df)

2.3 查看特定列的格式

Excel中通过选中单元格并查看开始菜单中的数值类型来判断数据的格式。R中使用typeof函数来返回数据格式。

typeof(df$age)
[1] "double"

2.4 查看空值

Excel中查看空值的方法是使用“定位条件”功能对数据表中的空值进行定位。“定位条件”在“开始”目录下的“查找和选择”目录中。

Is.na是R中检验空值的函数，返回的结果是逻辑值，包含空值返回True，不包含则返回False。你可以对整个数据表进行检查，也可以单独对某一列进行空值检查。

#查看空值
is.na(df)

#查看单列的空值
is.na(df$price)
[1] FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE

使用length计数函数和is.na配合使用，可以直接计算出数据表中某一列的空值数量。
#判断并计算某一列有几个空值
length(df$price[is.na(df$price)==TRUE])
[1] 2

2.5 查看唯一值

Excel中查看唯一值的方法是使用“条件格式”对唯一值进行颜色标记。R中使用unique()函数查看唯一值。

unique()函数是查看唯一值的函数，只能对数据表中的特定列进行检查。下面是代码，返回的结果是该列中的唯一值。类似与Excel中删除重复项后的结果。

#查看数据表的唯一值（删除重复值）
unique(df)

#查看数据表中city列的唯一值
unique(df$city)
[1]  Beijing    SH            guangzhou shenzhen     shanghai   BEIJING    
Levels:   guangzhou  Beijing  shanghai  BEIJING SH shenzhen

duplicated()函数用来查看数据表中是否存在重复值，可以对数据表进行检查也可以单独查看特定列中的重复值。返回的结果中TRUE表示重复，FALSE表示不重复。

#查找是否有重复值
duplicated(df)
[1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE

#查看特定列是否有重复值
duplicated(df$city)
[1] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE

2.6 查看数据表数值

R中有多个函数用来查看数据表中的数据，包括数据的范围、数据的极值等等。

#查看数据范围
range(df$age)
[1] 23 54

#查找最小值
min(df$age)
[1] 23

#查看最小值最在的行位置
which.min(df$age)
[1] 1

#查找最大值
max(df$age)
[1] 54

#查看最大值所在的行位置
which.max(df$age)
[1] 3

2.7 查看列名称

names()函数用来单独查看数据表中的列名称。

#查看列名称
names(df)
[1] "id"       "city"     "age"      "category" "price"

2.8 查看前10行数据

head()函数用来查看数据表中的前N行数据，默认head()显示前10行数据，可以自己设置参数n的值来确定查看的行数。下面的代码中n=2设置查看前2行的数据。

#查看前两行
head(df,n = 2)

2.9 查看后10行数据

tail行数与head()函数相反，用来查看数据表中后N行的数据，默认tail()显示后10行数据，可以自己设置参数n的值来确定查看的行数。下面的代码中，n=2设置查看后两行的数据。

#查看后两行
tail(df,n=2)

第3章　数据表清洗

本章是对数据表中的问题进行清洗，主要内容包括对空值、大小写问题、数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

3.1 处理空值（删除或填充）

我们在创建数据表的时候，在price字段中故意设置了几个NA值。对于空值的处理方式有很多种，既可以直接删除包含空值的数据，也可以对空值进行填充，比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理，将空值统一替换为0或均值。也可以通过“定位”空值来实现。

R中处理空值的方法比较灵活，既可以使用 na.omit()函数用来删除数据表中包含空值的数据，也可以用特定的值对空值进行填充。下面的代码和结果中可以看到使用na.omit()函数后，包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表。

#删除包含空值的行
df_na<-na.omit(df)

除此之外也可以使用数字对空值进行填充，下面的代码使用0对空值字段进行填充。

#将空值填充为0
df[is.na(df)] <- 0

我们继续使用填充的方式来处理空值，使用price列的均值来填充NA字段，在要填充的数值中使用mean()函数先计算price列当前的均值，然后使用这个均值对NA进行填充。可以看到两个空值字段显示为3526。

#将空值填充为均值
df[is.na(df)] <- mean(df_na$price)

3.2 清理空格

除了空值，字符中的空格也是数据清洗中一个常见的问题。下面是清除字符中空格的代码。首先需要按照raster和sp包，然后加载这两个包。

#安装raster和sp包
install.packages("raster")
install.packages("sp")

#加载raster和sp包
library('sp')
library('raster')

加载完成后使用trim()函数完成对字符中空格的清洗。

#去除city字段中的空格并替换原有字段
df_city=as.vector(df$city)
df_c=trim(df_city)
df$city=df_c

3.3 大小写转换

在英文字段中，字母的大小写不统一也是一个常见的问题。Excel中有UPPER、LOWER等函数，R中也有同名函数用来解决大小写的问题。在数据表的city列中就存在这样的问题。我们将city列的所有字母转换为小写。下面是具体的代码和结果。

#转化为小写字母
df$city=tolower(df$city)

3.4 更改数据格式

Excel中通过“设置单元格格式”功能可以修改数据格式。R中通过as.integer()函数用来修改数据格式。其中integer()函数是要修改的类型名称。将格式修改为字符型就是as.character。

#查看数据的格式
typeof(df$age)
[1] "double"

#更改数据格式
df$age=as.integer(df$age)

#查看修改后的数据格式
typeof(df$age)
[1] "integer"

3.5 删除重复值

很多数据表中还包含重复值的问题。Excel的数据目录下有“删除重复项”的功能，可以用来删除数据表中的重复值。默认Excel会保留最先出现的数据，删除后面重复出现的数据。

R中使用duplicated()函数查找重复值。duplicated()函数既可以查找数据表的重复值，也可以查找特定列中的重复值。发现重复值后使用unique()函数删除重复值。下面是具体的代码和比较结果。

#查找数据表重复值
duplicated(df)

#查找特定列的重复值
duplicated(df$city)

#查看数据表的唯一值（删除重复值）
df<-unique(df)

3.6 数据替换

数据清洗中最后一个问题是数值修改或替换，Excel中使用“查找和替换”功能就可以实现数值的替换。

R中使用gsub()函数实现数据替换。数据表中city字段上存在两种写法，分别为shanghai和SH。我们使用gsub()函数对SH进行替换。

#字符替换
df$city<-gsub('SH','shanghai',df$city)

第4章　数据预处理

本章是对清洗完的数据进行整理，以便后期的统计和分析工作，主要包括数据表的合并、排序、数据分列、数据表匹配和设置索引列等工作。

4.1 数据合并

首先是对不同的数据表进行合并。数据表的合并有3种，即横向合并、纵向合并和增加新字段。我们这里创建一个新的数据表df1，并将df和df1两个数据表进行纵向合并。

df1<-data.frame(id=c(1007,1008,1009,1010),
city=c("Beijing","shenZhen","guangzhou","shenzhen"),
age=c(25,34,24,37),
category=c("100-D","100-A","110-C","110-A"),
price=c(1600,2633,2433,4442))

纵向合并的意思就是在数据表的后面追加新的行记录，R中使用rbind()函数来完成这个工作。下面是具体的代码，将df和df1两个数据表进行纵向合并。

#合并数据表
df<-rbind(df,df1)

第二种数据表合并的方法是在现有的数据表中增加新的字段。增加新字段的方法有两种，将现有的字段进行合并，通过现有字段进行计算后生产新字段。

下面的代码中我们使用paste()函数将id和city字段进行合并，生产新的id_city字段，并合并在df数据表中。

#合并两个字段的内容
id_city<-paste(df$id,df$city)
df=cbind(df,id_city)

另一种方法是对数据表中的字段进行计算，产生新的字段。下面的代码中对price进行计算生产每条记录在price中的比率字段，并合并在原有的数据表中。

#计算新字段并合并
rate=round(df$price/sum(df$price),digits = 2)
[1] 0.04 0.11 0.07 0.17 0.11 0.14 0.05 0.08 0.08 0.14

df=cbind(df,rate)

4.2 数据排序

Excel中可以通过数据目录下的排序按钮直接对数据表进行排序，比较简单。R中需要使用order()函数完成排序。

首先，我们按id对数据表进行排序。decreasing参数为TRUE表示逆序。

#对数据表按id列进行排序(逆序)
df[order(df$id,decreasing = TRUE),]

省略decreasing参数默认为正序排序。下面的代码按rate对数据表进行排序。

#对数据表按rate列进行排序(正序)
df[order(df$rate),]

也可以同时多数据表中的多列进行排序，下面是具体的代码和排序后的结果。

#对多列进行排序
df[order(df$age,df$price,df$age,decreasing = TRUE),]

4.3 数据分列

Excel中的数据目录下提供“分列”功能。在R中使用strsplit()函数实现分列。对于分列的操作R比Excel要复杂，下面是具体的代码，包括提取数据、转换格式和数据表合并等操作。

在数据表中category列中的数据包含有两个信息，前面的数字为类别color，后面的字母为size值。中间以连字符进行连接。我们使用strsplit()函数对这个字段进行拆分，并将拆分后的数据表匹配回原数据表中。下面是具体的代码和结果。

#数据分列
df_category<-df$category
typeof(df_category)
[1] "integer"
df_category=as.character(df_category)
typeof(df_category)
[1] "character"
df_c<-strsplit(df_category,'-')
color<- sapply(df_c, "[", 1)
size<- sapply(df_c, "[", 2)
category1=data.frame(color,size)
df=cbind(df,category1)

4.4 数据表匹配

数据匹配是我们在经常使用的操作之一，我们这里创建一个新的数据表df2，并将df和df1两个数据表进行合并。在Excel中可以通过VLOOKUP函数实现。在R中可以通过merge()函数一次性实现。下面建立df2数据表，用于和df数据表进行合并。

df2<-data.frame(id=c(1001,1002,1003,1004,1005,1006,1007,1008),
gender=c('male','female','male','female','male','female','male','female'),
pay=c('Y','N','Y','Y','N','Y','N','Y'),
m_point=c(10,22,22,54,20,43,18,27))

使用merge函数对两个数据表进行合并，合并的方式为inner，将两个数据表中共有的数据匹配到一起生成新的数据表。

#数据表合并 inner模式
df<-merge(df,df2,by='id')

除了inner方式以外，合并的方式还有left、right和outer方式。这几种方式的差别在笔者的其他文章中有详细的说明和对比。

#数据表合并 outer模式
merge(df,df2,by='id',all=TRUE)
#数据表合并 left模式
merge(df,df2,all.x=TRUE,by='id')
#数据表合并 right模式
merge(df,df2,all.y=TRUE,by='id')

4.5 设置索引列

完成数据表的合并后，我们对df数据表设置索引列，索引列的功能很多，可以进行数据提取，汇总，也可以进行数据筛选等。设置索引的函数为rownames()。

#设置索引列
rownames(df)=df$id

从Excel到R 数据分析进阶指南

图书目录:

详情

图书摘要

版权信息

作者简介

第1章　生成数据表

1.1 导入数据表

1.2 创建数据表

第2章　数据表检查

2.1 数据维度(行列)

2.2 查看数据表

2.3 查看特定列的格式

2.4 查看空值

2.5 查看唯一值

2.6 查看数据表数值

2.7 查看列名称

2.8 查看前10行数据

2.9 查看后10行数据

第3章　数据表清洗

3.1 处理空值（删除或填充）

3.2 清理空格

3.3 大小写转换

3.4 更改数据格式

3.5 删除重复值

3.6 数据替换

第4章　数据预处理

4.1 数据合并

4.2 数据排序

4.3 数据分列

4.4 数据表匹配

4.5 设置索引列

相关图书

相关文章

相关课程

从Excel到R 数据分析进阶指南

图书目录:

详情

图书摘要

版权信息

作者简介

第1章 生成数据表

1.1 导入数据表

1.2 创建数据表

第2章 数据表检查

2.1 数据维度(行列)

2.2 查看数据表

2.3 查看特定列的格式

2.4 查看空值

2.5 查看唯一值

2.6 查看数据表数值

2.7 查看列名称

2.8 查看前10行数据

2.9 查看后10行数据

第3章 数据表清洗

3.1 处理空值（删除或填充）

3.2 清理空格

3.3 大小写转换

3.4 更改数据格式

3.5 删除重复值

3.6 数据替换

第4章 数据预处理

4.1 数据合并

4.2 数据排序

4.3 数据分列

4.4 数据表匹配

4.5 设置索引列

相关图书

相关文章

相关课程

第1章　生成数据表

第2章　数据表检查

第3章　数据表清洗

第4章　数据预处理