搜索
查看: 416|回复: 0

[R] R for data science

[复制链接]

3

主题

3

帖子

36

积分

新手上路

Rank: 1

积分
36
发表于 2018-10-15 10:30:53 | 显示全部楼层 |阅读模式
学习使用arrange(), select()library(tidyverse)## Warning: package 'tidyverse' was built under R version 3.5.1## -- Attaching packages ------------------------------------------------------------------------------------- tidyverse 1.2.1 --## v ggplot2 3.0.0     v purrr   0.2.5## v tibble  1.4.2     v dplyr   0.7.6## v tidyr   0.8.1     v stringr 1.3.1## v readr   1.1.1     v forcats 0.3.0## Warning: package 'ggplot2' was built under R version 3.5.1## Warning: package 'dplyr' was built under R version 3.5.1## Warning: package 'forcats' was built under R version 3.5.1## -- Conflicts ---------------------------------------------------------------------------------------- tidyverse_conflicts() --## x dplyr::filter() masks stats::filter()## x dplyr::lag()    masks stats::lag()library(nycflights13)## Warning: package 'nycflights13' was built under R version 3.5.1#Learing how to use arrange() to arrange orders  arrange(flights, year, month, day)#arrange by year, month and day ## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     1      517            515         2      830##  2  2013     1     1      533            529         4      850##  3  2013     1     1      542            540         2      923##  4  2013     1     1      544            545        -1     1004##  5  2013     1     1      554            600        -6      812##  6  2013     1     1      554            558        -4      740##  7  2013     1     1      555            600        -5      913##  8  2013     1     1      557            600        -3      709##  9  2013     1     1      557            600        -3      838## 10  2013     1     1      558            600        -2      753## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>mydata <- tibble(x=c(1,2,NA),y=c(NA,NA,2)) #create a tibbe with NAmydata## # A tibble: 3 x 2##       x     y##   <dbl> <dbl>## 1     1    NA## 2     2    NA## 3    NA     2arrange(mydata,desc(is.na(x)))#desc() means re-order by a column in descending order, by using is.na() we can sort NA to the start.## # A tibble: 3 x 2##       x     y##   <dbl> <dbl>## 1    NA     2## 2     1    NA## 3     2    NAarrange(flights, desc(is.na(dep_time)))## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     1       NA           1630        NA       NA##  2  2013     1     1       NA           1935        NA       NA##  3  2013     1     1       NA           1500        NA       NA##  4  2013     1     1       NA            600        NA       NA##  5  2013     1     2       NA           1540        NA       NA##  6  2013     1     2       NA           1620        NA       NA##  7  2013     1     2       NA           1355        NA       NA##  8  2013     1     2       NA           1420        NA       NA##  9  2013     1     2       NA           1321        NA       NA## 10  2013     1     2       NA           1545        NA       NA## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>arrange(flights, desc(is.na(dep_time)), dep_time)## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     1       NA           1630        NA       NA##  2  2013     1     1       NA           1935        NA       NA##  3  2013     1     1       NA           1500        NA       NA##  4  2013     1     1       NA            600        NA       NA##  5  2013     1     2       NA           1540        NA       NA##  6  2013     1     2       NA           1620        NA       NA##  7  2013     1     2       NA           1355        NA       NA##  8  2013     1     2       NA           1420        NA       NA##  9  2013     1     2       NA           1321        NA       NA## 10  2013     1     2       NA           1545        NA       NA## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>arrange(flights,desc(dep_delay))#find the most delayed flight## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     9      641            900      1301     1242##  2  2013     6    15     1432           1935      1137     1607##  3  2013     1    10     1121           1635      1126     1239##  4  2013     9    20     1139           1845      1014     1457##  5  2013     7    22      845           1600      1005     1044##  6  2013     4    10     1100           1900       960     1342##  7  2013     3    17     2321            810       911      135##  8  2013     6    27      959           1900       899     1236##  9  2013     7    22     2257            759       898      121## 10  2013    12     5      756           1700       896     1058## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>arrange(flights,dep_delay)#find the earliest flight## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013    12     7     2040           2123       -43       40##  2  2013     2     3     2022           2055       -33     2240##  3  2013    11    10     1408           1440       -32     1549##  4  2013     1    11     1900           1930       -30     2233##  5  2013     1    29     1703           1730       -27     1947##  6  2013     8     9      729            755       -26     1002##  7  2013    10    23     1907           1932       -25     2143##  8  2013     3    30     2030           2055       -25     2213##  9  2013     3     2     1431           1455       -24     1601## 10  2013     5     5      934            958       -24     1225## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>arrange(flights,distance / air_time / 60)#find the flight with the shortest flying time## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1    28     1917           1825        52     2118##  2  2013     6    29      755            800        -5     1035##  3  2013     8    28      932            940        -8     1116##  4  2013     1    30     1037            955        42     1221##  5  2013    11    27      556            600        -4      727##  6  2013     5    21      558            600        -2      721##  7  2013    12     9     1540           1535         5     1720##  8  2013     6    10     1356           1300        56     1646##  9  2013     7    28     1322           1325        -3     1612## 10  2013     4    11     1349           1345         4     1542## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>a <- arrange(flights,air_time)#find the flight that traveled the shortestb <- arrange(flights,desc(air_time))#find the flight that traveled the longest



library(tidyverse)## Warning: package 'tidyverse' was built under R version 3.5.1## -- Attaching packages ------------------------------------------------------------------------------------- tidyverse 1.2.1 --## v ggplot2 3.0.0     v purrr   0.2.5## v tibble  1.4.2     v dplyr   0.7.6## v tidyr   0.8.1     v stringr 1.3.1## v readr   1.1.1     v forcats 0.3.0## Warning: package 'ggplot2' was built under R version 3.5.1## Warning: package 'dplyr' was built under R version 3.5.1## Warning: package 'forcats' was built under R version 3.5.1## -- Conflicts ---------------------------------------------------------------------------------------- tidyverse_conflicts() --## x dplyr::filter() masks stats::filter()## x dplyr::lag()    masks stats::lag()library(nycflights13)## Warning: package 'nycflights13' was built under R version 3.5.1flights## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     1      517            515         2      830##  2  2013     1     1      533            529         4      850##  3  2013     1     1      542            540         2      923##  4  2013     1     1      544            545        -1     1004##  5  2013     1     1      554            600        -6      812##  6  2013     1     1      554            558        -4      740##  7  2013     1     1      555            600        -5      913##  8  2013     1     1      557            600        -3      709##  9  2013     1     1      557            600        -3      838## 10  2013     1     1      558            600        -2      753## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>select(flights, year, month, day)## # A tibble: 336,776 x 3##     year month   day##    <int> <int> <int>##  1  2013     1     1##  2  2013     1     1##  3  2013     1     1##  4  2013     1     1##  5  2013     1     1##  6  2013     1     1##  7  2013     1     1##  8  2013     1     1##  9  2013     1     1## 10  2013     1     1## # ... with 336,766 more rowsselect(flights, year:day)## # A tibble: 336,776 x 3##     year month   day##    <int> <int> <int>##  1  2013     1     1##  2  2013     1     1##  3  2013     1     1##  4  2013     1     1##  5  2013     1     1##  6  2013     1     1##  7  2013     1     1##  8  2013     1     1##  9  2013     1     1## 10  2013     1     1## # ... with 336,766 more rowsselect(flights, -(year:day))## # A tibble: 336,776 x 16##    dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay##       <int>          <int>     <dbl>    <int>          <int>     <dbl>##  1      517            515         2      830            819        11##  2      533            529         4      850            830        20##  3      542            540         2      923            850        33##  4      544            545        -1     1004           1022       -18##  5      554            600        -6      812            837       -25##  6      554            558        -4      740            728        12##  7      555            600        -5      913            854        19##  8      557            600        -3      709            723       -14##  9      557            600        -3      838            846        -8## 10      558            600        -2      753            745         8## # ... with 336,766 more rows, and 10 more variables: carrier <chr>,## #   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,## #   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>select(flights,contains("arr"))## # A tibble: 336,776 x 4##    arr_time sched_arr_time arr_delay carrier##       <int>          <int>     <dbl> <chr>  ##  1      830            819        11 UA     ##  2      850            830        20 UA     ##  3      923            850        33 AA     ##  4     1004           1022       -18 B6     ##  5      812            837       -25 DL     ##  6      740            728        12 UA     ##  7      913            854        19 B6     ##  8      709            723       -14 EV     ##  9      838            846        -8 B6     ## 10      753            745         8 AA     ## # ... with 336,766 more rowsselect(flights,starts_with("arr"))## # A tibble: 336,776 x 2##    arr_time arr_delay##       <int>     <dbl>##  1      830        11##  2      850        20##  3      923        33##  4     1004       -18##  5      812       -25##  6      740        12##  7      913        19##  8      709       -14##  9      838        -8## 10      753         8## # ... with 336,766 more rowsselect(flights,ends_with("arr"))## # A tibble: 336,776 x 0select(flights,contains("arr"))## # A tibble: 336,776 x 4##    arr_time sched_arr_time arr_delay carrier##       <int>          <int>     <dbl> <chr>  ##  1      830            819        11 UA     ##  2      850            830        20 UA     ##  3      923            850        33 AA     ##  4     1004           1022       -18 B6     ##  5      812            837       -25 DL     ##  6      740            728        12 UA     ##  7      913            854        19 B6     ##  8      709            723       -14 EV     ##  9      838            846        -8 B6     ## 10      753            745         8 AA     ## # ... with 336,766 more rowsrename(flights,arrdelay = arr_delay)#?????????????????????????????????,?????????????????????## # A tibble: 336,776 x 19##     year month   day dep_time sched_dep_time dep_delay arr_time##    <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1  2013     1     1      517            515         2      830##  2  2013     1     1      533            529         4      850##  3  2013     1     1      542            540         2      923##  4  2013     1     1      544            545        -1     1004##  5  2013     1     1      554            600        -6      812##  6  2013     1     1      554            558        -4      740##  7  2013     1     1      555            600        -5      913##  8  2013     1     1      557            600        -3      709##  9  2013     1     1      557            600        -3      838## 10  2013     1     1      558            600        -2      753## # ... with 336,766 more rows, and 12 more variables: sched_arr_time <int>,## #   arrdelay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,## #   minute <dbl>, time_hour <dttm>select(flights,carrier, day , everything())#???everything???????????????## # A tibble: 336,776 x 19##    carrier   day  year month dep_time sched_dep_time dep_delay arr_time##    <chr>   <int> <int> <int>    <int>          <int>     <dbl>    <int>##  1 UA          1  2013     1      517            515         2      830##  2 UA          1  2013     1      533            529         4      850##  3 AA          1  2013     1      542            540         2      923##  4 B6          1  2013     1      544            545        -1     1004##  5 DL          1  2013     1      554            600        -6      812##  6 UA          1  2013     1      554            558        -4      740##  7 B6          1  2013     1      555            600        -5      913##  8 EV          1  2013     1      557            600        -3      709##  9 B6          1  2013     1      557            600        -3      838## 10 AA          1  2013     1      558            600        -2      753## # ... with 336,766 more rows, and 11 more variables: sched_arr_time <int>,## #   arr_delay <dbl>, flight <int>, tailnum <chr>, origin <chr>,## #   dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, minute <dbl>,## #   time_hour <dttm>select(flights, dep_time, dep_delay, arr_time, arr_delay)## # A tibble: 336,776 x 4##    dep_time dep_delay arr_time arr_delay##       <int>     <dbl>    <int>     <dbl>##  1      517         2      830        11##  2      533         4      850        20##  3      542         2      923        33##  4      544        -1     1004       -18##  5      554        -6      812       -25##  6      554        -4      740        12##  7      555        -5      913        19##  8      557        -3      709       -14##  9      557        -3      838        -8## 10      558        -2      753         8## # ... with 336,766 more rowsselect(flights, "dep_time", "dep_delay", "arr_time", "arr_delay")## # A tibble: 336,776 x 4##    dep_time dep_delay arr_time arr_delay##       <int>     <dbl>    <int>     <dbl>##  1      517         2      830        11##  2      533         4      850        20##  3      542         2      923        33##  4      544        -1     1004       -18##  5      554        -6      812       -25##  6      554        -4      740        12##  7      555        -5      913        19##  8      557        -3      709       -14##  9      557        -3      838        -8## 10      558        -2      753         8## # ... with 336,766 more rowsselect(flights, one_of(c("dep_time", "dep_delay", "arr_time", "arr_delay")))## # A tibble: 336,776 x 4##    dep_time dep_delay arr_time arr_delay##       <int>     <dbl>    <int>     <dbl>##  1      517         2      830        11##  2      533         4      850        20##  3      542         2      923        33##  4      544        -1     1004       -18##  5      554        -6      812       -25##  6      554        -4      740        12##  7      555        -5      913        19##  8      557        -3      709       -14##  9      557        -3      838        -8## 10      558        -2      753         8## # ... with 336,766 more rows#?????????????????????,one_of()variables <- c("dep_time", "dep_delay", "arr_time", "arr_delay")select(flights, one_of(variables))## # A tibble: 336,776 x 4##    dep_time dep_delay arr_time arr_delay##       <int>     <dbl>    <int>     <dbl>##  1      517         2      830        11##  2      533         4      850        20##  3      542         2      923        33##  4      544        -1     1004       -18##  5      554        -6      812       -25##  6      554        -4      740        12##  7      555        -5      913        19##  8      557        -3      709       -14##  9      557        -3      838        -8## 10      558        -2      753         8## # ... with 336,766 more rows





上一篇:用GATK4的mutect2得到的vcf文件好像有问题
下一篇:R FOR DATA SCIENCE
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-22 22:39 , Processed in 0.034586 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.