R语言常用语法

R语言中的管道%>%

%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。
符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。
简单例子
比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步:

  • 计算a = x+1的值;
  • 计算b = a^2的值;
  • 计算c = sin(b)的值

这样一来,c就是我们需要的最终结果了。用R语言管道传参,只需要这样写:

f1 <- function(x){return(x+1)}
f2 <- function(x){return(x^2)}
f3 <- function(x){return(sin(x))}

管道(%>%)调用函数
library(dplyr) #用管道传参需要这个包

a <- 1
b <- a %>% f1 %>% f2 %>% f3
print(b)
[1] -0.7568025

管道传参具体用法
a%>%f(b)等同于f(a,b);
b%>%f(a,.,c)等同于f(a,b,c);
例如:

>library(dplyr)
> f1 <- function(x,y){return(x+y)} 
> f2 <- function(x,y,z){return(x*y+z)} 
> a1 <- 2 
> a2 <- 3 
> a3 <- 4 
> d1 <- a1 %>% f1(a2)
> d1
[1] 5
> d2 <- a2 %>% f2(a1,.,a3)
> d2
[1] 10
> d3 <- a3 %>% f2(a1,a2,.)
> d3
[1] 10

创建一份数据:

> library(tidyr)
>date <- as.Date('2017-6-22')+0:14 > hour <- sample(1:24, 15) 
> min <- sample(1:60, 15) 
> second <- sample(1:60, 15) 
> dat <- data.frame(date,hour,min,second) 
> dat
     date hour min second
1 2017-06-22 22 54 15
2 2017-06-23 7 51 4
3 2017-06-24 11 23 38
4 2017-06-25 23 45 50
5 2017-06-26 14 60 44
6 2017-06-27 5 24 56
7 2017-06-28 9 39 25
8 2017-06-29 20 22 22
9 2017-06-30 2 17 43
10 2017-07-01 17 56 31
11 2017-07-02 19 11 33
12 2017-07-03 24 35 18
13 2017-07-04 15 6 13
14 2017-07-05 4 12 47
15 2017-07-06 12 7 30

我们想把它变成标准时间格式,怎么办呢?“tidyr”包的函数unite()可以以指定字符连接指定列,形成新列,具体用法见下例:

> a1 <- rep(1,5) 
> a2 <- rep(2,5) 
> a3 <- rep(3,5) 
> A <- data.frame(a1,a2,a3) 
> A
     a1 a2 a3
1 1 2 3
2 1 2 3
3 1 2 3
4 1 2 3
5 1 2 3
> A1 <- unite(A,a12,a1,a2,sep = '~')

或者> A1 <- A %>% unite(a12,a1,a2,sep = '~')
对数据A的列a1,a2合并为新列a12,用“~”连接。

> A1
     a12 a3
1 1~2 3
2 1~2 3
3 1~2 3
4 1~2 3
5 1~2 3

再来一步:

> A2 <- unite(A1,a123,a12,a3,sep = '/')
> A2 <- A1 %>% unite(a123,a12,a3,sep = '/')

对A1里面的a12与a3用“/”连接,形成新列“a123”。

> A2
     a123
1 1~2/3
2 1~2/3
3 1~2/3
4 1~2/3
5 1~2/3

也可以用管道传参一步搞定:

> A %>%unite(a12,a1,a2,sep = '~') %>% unite(a123,a12,a3,sep = '/')
    a123
1 1~2/3
2 1~2/3
3 1~2/3
4 1~2/3
5 1~2/3

回到我们的问题
看懂上例,就可以用管道传参一步搞定时间转换问题。

> dat1 <- dat %>%unite(datehour,date,hour,sep = ' ')%>%unite(datetime,datehour,min,second,sep = ':')
> dat1
             datetime
1 2017-06-22 22:54:15
2 2017-06-23 7:51:4
3 2017-06-24 11:23:38
4 2017-06-25 23:45:50
5 2017-06-26 14:60:44
6 2017-06-27 5:24:56
7 2017-06-28 9:39:25
8 2017-06-29 20:22:22
9 2017-06-30 2:17:43
10 2017-07-01 17:56:31
11 2017-07-02 19:11:33
12 2017-07-03 24:35:18
13 2017-07-04 15:6:13
14 2017-07-05 4:12:47
15 2017-07-06 12:7:30

R语言调试

请小心上述代码中的漏洞(bug),我只证明了代码是正确的,而没有尝试过。

——Donald Knuth,计算机科学先驱

程序员经常会发现他们在调试程序上花费的时间比编写程序本身花的时间还要长,所以好的调试技巧是无价的。
这里介绍R语言基本调试方法。R语言调试工具由浏览器(browser)构成,它可以使我们的程序逐行运行,可以调用debug()或者browser()函数打开浏览器。

浏览器调试命令
进入调试浏览器时,命令提示符从“>”变为“Browse[d]>”(“d”表示函数调用链深度)
1. n(next):执行下一行,然后暂停,直接键入“Enter”一样;
2. c(continue):如果在循环中,会执行本次循环剩下所有语句,然后进入下一次循环,到该位置继续暂停;
键入变量名:查看变量值,若与浏览器变量同名,需用print()打印出来看,下面有例子,旁边变量区也可以看;
3. where:显示到达当前位置过程中函数的调用序列;
4. Q:该命令会退出浏览器,返回正常交互模式。

debug()
debug(f)函数可以在函数f()入口处进入浏览器而处于调试状态。
比如这个例子:

cou <- function(count)
{
s <- 0
i <- 1
while(i<count+1)
{
s <- s+i
i <- i+1 } return(s) } debug(cou) cou(10)

只在入口处调试一次:

Browse[2]> c
exiting from: cou(10)
[1] 55

结束。

browser()
与debug(f)函数在函数f()入口处进入浏览器而处于调试状态不同,browser()可以插在函数中任一行,程序只要运行到该行,就进入调试状态即浏览器会被打开,直到程序结束。
假如我们想观察这个累加运算过程变量i、s的变化,可以把browser()加到循环中,每循环一次,暂停一次,便于观察。

cou1 <- function(count)
{
s <- 0
i <- 1
while(i<count+1)
{
s <- s+i
browser() #-----调试处-----#
i <- i+1 } 
return(s) 
} 
cou1(10) 

第一次调试

我们查看i、s的值

Called from: cou1(10)

Browse[1]> i
[1] 1
Browse[1]> print(s)
[1] 1

输入“c”(continue缩写)执行下一次循环。

Browse[1]> c
Called from: cou1(10)
Browse[1]> i
[1] 2
Browse[1]> print(s)
[1] 3
...

第十次调试

Browse[1]> c
Called from: cou1(10)
Browse[1]> i
[1] 10
Browse[1]> print(s)
[1] 55
结束
Browse[1]> c
[1] 55

 





作者:柯广的网络日志

微信公众号:Java大数据与数据仓库