搜索
查看: 2847|回复: 0

[Other] Biostar:课程1、2-Linux中生信分析常用命令入门

[复制链接]

33

主题

46

帖子

230

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
230
发表于 2017-3-17 12:26:00 | 显示全部楼层 |阅读模式
注:本文是生信媛微信公众号原创文章
作者:István Albert
原文链接:https://mp.weixin.qq.com/s/1A6Pu1Odd2lvBjzKT971kQ




Lecture 1 – 基本命令

# “#”号开头的行是注释行,不会被执行。
# 查看当前文件夹路径。
pwd

# 新建一个目录
mkdir work

# 查看该目录下所有文件的名称
ls

# 查看该目录下所有文件的更多细节
ls -l

# 进入work目录
cd work

# 再次查看当前文件夹路径。
pwd

# 返回上一层目录
cd ..

# 再次查看当前文件夹路径。
pwd

# 删除work目录
rm dir work

# 新建一个文件
touch abc.txt

# 重命名(移动文件)
mv abc.txtxyz.txt

# 查看mv命令做了什么?
man mv

# 通过查询帮助文件,学习其他命令,如 cp, ls, mv,rm, mkdir, rmdir
# 例如,ls命令
man ls


Lecture2 – 简单的数据处理

# 为原作者注释
#* 为译者的标注
#从SGD上获取数据.
#用curl命令把URL下载下来,并存储一个叫 sc.gff 的文件中.
#*每个文件都有一个唯一的URL,也就是网址,用curl可以把这个URL对应的东西下载下来
#*大家可以尝试输入curl –h查看-o的含义:把标准输出更为写入到文件。


#*大家可以尝试把-o sc.gff去掉,会发现,这个saccharomyces_cerevisiae.gff文件的内容是边下载边呈现在屏幕上。大家可以通过快捷键ctrl+C把这个进程结束掉。
#或者,假如这个网站下载数据似乎比较慢。但问一下自己,从一个课程网站下载,速度比官方数据存放网站要快是不是有些奇怪?加油,SGD!

#*上面这条命令是从该课程的网站上下载数据,跟上一条命令下载的是是同一个数据。译者实测速度为:官网13‘,课程网站11’。

#来看看这个文件有多少行。
wc -l sc.gff

#按页翻看这个文件内容:用more(或者less)
#SPACE(译者:也就是空格键)和f 是向往下翻页, b 是往上翻页,q 是退出, h 是帮助,/ 进入搜索。
more sc.gff

#*大家可以尝试一下less sc.gff

#我们来看看这个文件的前面几行
head sc.gff

#以及文件的结尾.
tail sc.gff

#把符合某些模式的内容从文件中抓取出来。
#*这里YAL060W为指定需要匹配的模式。这条命令的含义是,把sc.gff这个文件中,含有YAL060W的所有行挑选出来。
grep YAL060W sc.gff

#我们可以把这些所得到的匹配结果存放到一个文件中。
grep YAL060W sc.gff > match.gff

#来看一下你的文件。
ls

#随意翻阅一下这个存放匹配结果的文件。
head match.gff

#管道命令(多个命令连用)
#有多少行是匹配“gene”这个词的?
#*这个命令是先把含有gene一词的行选出来,然后用wc -l查看有多少行。大家可以试试不加-l是什么结果。
grep gene sc.gff | wc -l

#有多少行是同时匹配“gene”和“chrVI”(6号染色体)这两个词?
grep gene sc.gff | grep chrVI | wc -l

#在上述符合条件的行里,不匹配“Dubious”的有多少行?
#* -v是反转匹配(invert match)的意思,这里就是挑选除了匹配Dubious之外的所有行。
grep gene sc.gff | grep chrVI | grep -v Dubious | wc -l

#这个文件有点奇怪。它分为两个部分,表格部分是tab分隔的9列数据,另一部分是一条完整的基因组序列

#把这个文件分为两部分。把基因组序列之前的所有行存进文件features.gff.
#我们发现,出现含有单词“FASTA”的行就意味着基因组信息从这里开始。
cat -n sc.gff | head

#找到“FASTA”在文件中的位置。 -n是指,把文件的行号输出来。
cat -n sc.gff | grep FASTA

#把这个行号之前的所有含基因组特征信息的行存进新的文件中。同时去除含有“#”的注释行
head -22994 sc.gff | grep -v '#' > features.gff

#整了这么多,我们只是想单独把表格形式的这些信息分选出来。来看看这些特征信息有多少行。
wc -l features.gff

#把前三列截取出来。
#* cut 在不指定分隔符的时候,默认是tab分割。如果是其他分隔符,可以用-d指定分隔符类型,以逗号分隔(比如csv格式)为例:cut -d "," -f 1,2,3 features.gff | head

cut -f 1,2,3 features.gff | head

#去除这个GFF文件的第三列重复的词
#*这里sort是从小到大排序。
#uniq 命令是把同样的词只保留一个。
#*举例来说,比如一组数据有1,1,2,3,3,3.经过uniq就变为1,2,3
cut -f 3 features.gff |sort | uniq | head


#也可以计算某个词有多少个重复(uniq 加-c后显示重复个数)
cut -f 3 features.gff |sort | uniq -c | head


好了~今天先到这~谢谢大家~



Lecture1翻译:平杰
Lecture2翻译:生物女博士

注:本系列课程翻译已获得原作者授权。



欢迎到微信公众号订阅我们
生信媛
bio_sxy





上一篇:cancer按照primary site来分类并不准确
下一篇:SHOREmap练习MBS
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-7 13:06 , Processed in 0.026827 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.