搜索
查看: 2140|回复: 0

[Python] Python和R的异同(一)

[复制链接]

18

主题

56

帖子

403

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
403
发表于 2017-7-2 08:17:40 | 显示全部楼层 |阅读模式
本帖最后由 hoptop 于 2017-7-2 08:22 编辑

<- 对应R, = 对应Python
  • R语言基本数据结构是向量,支持向量化操作。Python不支持向量化
  • R和Python都是面向对象编程的语言。所以不同的类都各自的方法

R的向量矩阵数组与Python的列表
R语言的核心是向量,向量内的数据类型必须相同,也就是mode只会输出一个结果,如果向量里存在不同数据类型,那么R会以数据损失最小的转换方法让最后结果保持一致。
比如说:
[AppleScript] 纯文本查看 复制代码
a <- c(1,2,3,4,5)b <- c(1,2,'3',4, True)


a和b的mode肯定是不同,mode(a)的结果是numeric, mode(b)结果会是character.
R语言里的所有函数就支持向量化操作, 比如说数学运算符和各类函数

[AppleScript] 纯文本查看 复制代码
a + 1[1] 2 3 4 5


R语言里面是没有标量的,标量被R当作一个元素的向量。Python里面的数据类型是可以单个存放的。所以从输出结果长的像角度上,Python和R语言的向量看起来相同的数据结构应该是列表(list)。list在Python里面序列类型,同类型的还有元祖(tuple)和范围(range)
[AppleScript] 纯文本查看 复制代码
a = [1,2,3,4,'b']


不过只是在结构上看起来相似,Python不支持向量化操作,所以企图直接a+1是会出错的,即便里面都是数值型数据
[AppleScript] 纯文本查看 复制代码
a = [1,2,3,4,5]
a + 1
# TypeError: can only concatenate list (not "int") to list
a + ['b','c']
# [1, 2, 3, 4, 5, 'b', 'c']



就我目前的眼界,能想到实现R语言那样的整体运算,在Python里面就是列表推导式了。
[AppleScript] 纯文本查看 复制代码
[i + 2 for i in a]

既然长的像,所以就要看看有哪些运算是共同的。

取值
虽然Python和R都可以用[]从数据结构中提取数据,但还是有很大区别。最最要的一个区别就是Python从0开始下标, R从1开始下标。

一维数据
提取一元数据时,如果只提取一个数据两者差不多是相同的;
[AppleScript] 纯文本查看 复制代码
# 提取第一个元素
## R
a <- c(1,2,3,4,5,6)
a[1]
## Python
a = [1,2,3,4,5,6]
a[0]

如果要提取多个数据就存在差异了。比如说Python就只能选取连续的几个值,要么分别取值。R语言可以在[]中提供一组包含位置信息的向量。R语言的[]可以存放Boolean向量,Python里面就需要用列表推导式,循环进行逻辑比较。
[AppleScript] 纯文本查看 复制代码
# R
a[c(1,3)]
a[which(a > 2)]
a[ a > 1 & a < 4]
# Python
a[1];a[3]
[i for i in a if i >1 and i <4]

但是一般而言,我们也不会专门选择几个数值,基本都是根据逻辑判断结果选择一组符合要求的数据。

多维数据
R语言的矩阵和数组结构有专门的结构,matrix和array,但是基础还是向量。在Python里则是通过列表嵌套的方式实现。
[AppleScript] 纯文本查看 复制代码
# R matrix 看作三个向量按列排
mdat <- matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,
               dimnames = list(c("row1", "row2"), 
                              c("C.1", "C.2", "C.3")))
# Python matrix 
a= [[1,2,3],[4,5,6]]
# R 三维数组
d3 <- array(1:24, c(2,3,4))
# Python三维数组
d3 = [[[1,3,5],[2,4,6]],[[7,9,11],[8,10,12]],[[19,21,23],[20,22,24]]]


多维数据的提取和赋值也是有不大不小的区别,一个是[x,y,z],一个是[z][y][x]。R从里到外,Python从外到里(我是这样理解的)。尝试分别从Pyhon和R里面提取同一个数据
[AppleScript] 纯文本查看 复制代码
# R
d3[1,2,2]
d3[1,2,2] <- 0
# Python
d3[1][0][1]
d3[1][0][1] <- 0

如果想提取全部第二维度的数据
[AppleScript] 纯文本查看 复制代码
# R
d3[,,2]
# Python
d3[1]


函数
在函数用法上,两者的差异就真的是很大了。结果就是有段时间只用R,然后按照R的习惯用Python,基本上都出error。比如说对刚才的三维数据求和
[AppleScript] 纯文本查看 复制代码
# R
sum(d3)
# Ptyhon
sum(d3)
TypeError: unsupported operand type(s) for +: 'int' and 'list'


原因是R里面是向量化操作,直接对所有元素进行运算。在Python里面,sum函数会对list里面的各个元素进行求和, 而d3的内一层还是一个列表,所以就会出错了。
最直观的方法就是看看R和Python的多维数组的元素数量:
[AppleScript] 纯文本查看 复制代码
# R
length(d3)
 24
# Python
len(d3);
 d3.__len__()
3

因此R和Python的函数只能在一维上存在相似性,超过一维基本用一个错一个。
Python作为一门面向对象编程语言,对于每一种列都有专门的方法,这个方法可以用dir()进行查看。
在R里面dir()是用来查看当前目录下的文件。
[AppleScript] 纯文本查看 复制代码
dir(list)
['__add__', '__class__','__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__',  '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__',  '__init_subclass__', '__iter__', '__le__',  '__len__', '__lt__', '__mul__', '__ne__',  '__new__', '__reduce__', '__reduce_ex__', '__repr__',  '__reversed__', '__rmul__', '__setattr__', '__setitem__',  '__sizeof__', '__str__', '__subclasshook__',  'append', 'clear', 'copy',  'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


所以Python里面经常会遇到d3.pop()这种调用类方法的形式。在R语言里则是函数的多态性,prin是其中一个多态性函数,它提供了一个接口,根据输入数据类型调用相应的函数
[AppleScript] 纯文本查看 复制代码
# R
print
# function (x, ...) 
# UseMethod("print")
# <bytecode: 0x000000001456fbf0>
# <environment: namespace:base>

可以用methods(print)看具体有那些具体函数。







上一篇:落入窠(ke)臼(jiu):GATK best practice每个步骤都是必须的吗?
下一篇:hoptop的博客
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:16 , Processed in 0.040426 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.