搜索
查看: 330|回复: 0

图形化开放式生信分析系统开发- 9Illumina测序仪测序数据...

[复制链接]

9

主题

12

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2019-12-5 10:19:08 | 显示全部楼层 |阅读模式
前文链接:
前文讲述了从样本信息录入,分析流程的搭建/设计和运行,最终模板报告的定制与自动生成。为了实现完整的自动化,本文讲述如何与Illumina测序仪衔接,实现下机数据自动拆分(测试过的机型MiSeq,NextSeq500)。
一、bcl2fastq安装与运行
说到Illumina的下机数据拆分,就一定会用到Illumina官方的软件bcl2fastq2,目前最新版本2.20软件可以从Illumina官网下载,默认提供的是Linux rpm格式或者是源码格式。
安装
  • CentOS/Redhat:

  rpm -install -y bcl2fastq2_0v2.20.0.422-2_amd64.rpm
  • Ubuntu 可以将rpm转换为deb包格式然后安装:

  sudo apt-get install alien
  sudo alien bcl2fastq2_0v2.20.0.422-2_amd64.rpm
  dpkg -i bcl2fastq2_0v2.20.0.422-2_amd64.deb
-源码安装:
  ## For example, you can set the environment variables as:
  export TMP=/tmp
  export SOURCE=${TMP}/bcl2fastq
  export BUILD=${TMP}/bcl2fastq2-v2.19.x-build
  export INSTALL_DIR=/usr/local/bcl2fastq2-v2.19.x
  ##Build and Installthe Software
  ${TMP}/bcl2fastq:
  cd ${TMP}
  tar -xvzf bcl2fastq2-v2.19.x.tar.gz
  mkdir ${BUILD}
  cd ${BUILD}
  chmod ugo+x ${SOURCE}/src/configure
  chmod ugo+x ${SOURCE}/src/cmake/bootstrap/installCmake.sh
  ${SOURCE}/src/configure --prefix=${INSTALL_DIR}
  cd ${BUILD}
  make
  make installConvert and Demultiplex BCL Files
用<runfolder>表示下机目录,默认用于标记样本的SampleSheet.csv文件位置<runfolder>/SampleSheet.csv
运行:
  nohub nohup /usr/local/bin/bcl2fastq \
      --runfolder-dir <RunFolder>
      --output-dir <BaseCalls>
      --sample-sheet <runfolder-dir>/SampleSheet.csv
或者指定SampleSheet.csv文件位置:
  nohub nohup /usr/local/bin/bcl2fastq \
      --runfolder-dir <RunFolder>
      --output-dir <BaseCalls>
实际运行命令举例:
  bcl2fastq -r 8 -p 8 -w 8 \
      --no-lane-splitting \
      --barcode-mismatches 1 \
      --runfolder-dir /opt/ref/data/181105_NB551525_0003_AH7W7TAFXY \
      --sample-sheet  /opt/ref/data/181105_NB551525_0003_AH7W7TAFXY/SampleSheet.csv \
      --output-dir    /opt/ref/data
bcl2fastq命令参数很多,但是最常用的参数就以下几个:
  • -r, --loading-threads   加载线程数
  • -p,  --processing-threads 拆分数据线程数
  • -w, --writing-threads 数据写入线程数
  • --no-lane-splitting   不按照lane拆分数据
  • --barcode-mismatches  允许的barcode错配数
  • --runfolder-dir  /   -R   下机数据目录
  • --sample-sheet    samplesheet文件所在位置
  • --outputdir     / -o      输出目录

二、如何识别下机数据目录
Illumina测序仪下机数据文件夹命名:  YYMMDD_machinename_XXXX_FCXXXX
  • YYMMDD 为上机日期
  • machinename为该测序仪唯一命名编号
  • XXXX为expirement ID
  • FCXXXX为flowcell 编号

如果要使用程序扫描匹配样本系统,就需要提供至少前两个字段作为识别匹配。后两个字段,获取较难。
如何判断测序结束?一般使用该目录下RTAComplete.txt是否存在来判断测序是否完成。
三、SampleSheet.csv文件格式
SampleSheet文件最常用的有版本4 / 5,字段有些差异,但是真正在数据拆分时候起作用的,上图红色部分,其余并不重要。这里为了拆分项目通用性使用了字段 SampleProject,实际使用种大概率会出现多个项目上一张芯片。
以上SampleSheet.csv文件放在下机数据目录里,数据分拆后得到的数据是这样的:
目录结构为:
  [Sample Project]/[Sample ID]/[Sample Name]S*_R1_*.fastq.gz
记住此目录结构,为了拆分数据得到的数据与后续生信pipeline连接做全自动分析。
四、与系统交互从样本信息中生成SampleSheet.csv
如果要用程序生成SampleSheet文件,这里就会用到图形化开放式生信分析系统开发 - 2 样本信息处理文章里样本信息的字段信息。
  • 上机编号即对应于Illumina测序仪下机数据目录,前两个字段

五、与分析流程对接,实现拆分数据与数据分析联动
需要完成的工作:
  • 请求系统根据样本信息生成SampleSheet,并下载到本地下机数据目录。
  • 运行bcl2fastq分拆数据。
  • 分拆成功后,更新系统中相关的Sample状态,标识该样本数据已经分拆过,避免重复运行。
  • 在pipeline起始输入端,匹配分拆后的数据输入目录。必要时候使用正则表达式匹配。
    如:
      ${pn}/${id}/^${sn}_S[a-zA-Z0-9_.\-]+_R1_[0-9]+.fastq.gz$
      ${pn}/${id}/^${sn}_S[a-zA-Z0-9_.\-]+_R2_[0-9]+.fastq.gz$
整体的运行逻辑流程图如下:
六、拆分运行日志与报告保存
单纯的体力劳动。上两张图
网站:www.sliverworkspace.com 欢迎下载产品PPT   或加QQ群:853718264参与讨论




上一篇:问问高手,GEO数据处理的论文什么样的期刊接收呀
下一篇:胰腺癌治疗四大靶向药:厄洛替尼、依维莫司、舒尼替尼...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-2-29 08:45 , Processed in 0.028663 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.