搜索
12
返回列表 发新帖
楼主: Panda姐

【Panda姐-perl练习题3】从gbk文件中提取蛋白序列

[复制链接]

0

主题

20

帖子

135

积分

注册会员

Rank: 2

积分
135
发表于 2019-6-14 10:33:53 | 显示全部楼层
python脚本
import re
from collections import OrderedDict
f=open('sequence.gb').read()
dict1=OrderedDict()
protein_ids=re.findall(r'/protein_id="(.+)"',f)
protein_seqs=re.findall(r'/translation="(.+?)"',f,re.S)

new_protein_seqs=[]
for protein_seq in protein_seqs:
    protein_seq=protein_seq.replace(' ','')
    new_protein_seqs.append(protein_seq)
for protein_id in protein_ids:
    key='>'+protein_id+'\n'
    dict1[key]=new_protein_seqs[protein_ids.index(protein_id)]+'\n'
with open('sequence_output.fasta','w') as outputfile:
    for k,v in dict1.items():
        outputfile.write(k+v)
我下载的这样的文件格式:
LOCUS       NC_010475            3008047 bp    DNA     circular CON 17-APR-2017
DEFINITION  Synechococcus sp. PCC 7002, complete genome.
ACCESSION   NC_010475
VERSION     NC_010475.1
DBLINK      BioProject: PRJNA224116
            BioSample: SAMN01081740
            Assembly: GCF_000019485.1
KEYWORDS    RefSeq.
SOURCE      Synechococcus sp. PCC 7002
  ORGANISM  Synechococcus sp. PCC 7002
            Bacteria; Cyanobacteria; Synechococcales; Synechococcaceae;
            Synechococcus.
REFERENCE   1  (bases 1 to 3008047)
  AUTHORS   Li,T., Zhao,J., Zhao,C., Liu,Z., Zhao,F., Marquardt,J.,
            Nomura,C.T., Persson,S., Detter,J.Chris., Richardson,P.M., Lanz,C.,
            Schuster,S.C., Wang,J., Li,S., Huang,X., Cai,T., Yu,Z., Luo,J.,
            Zhao,J. and Bryant,D.A.
  TITLE     Direct Submission
  JOURNAL   Submitted (26-FEB-2008) Dept. of Biochemistry and Molecular
            Biology, The Pennsylvania State University, S235 Frear Building,
            University Park, PA 16802, USA
COMMENT     REFSEQ INFORMATION: The reference sequence was derived from
            CP000951.
            This bacterium is available from the Pasteur Culture Collection of
            Cyanobacteria: Synechococcus sp. PCC 7002.
            (http://www.pasteur.fr/recherche/banques/PCC/Strains.htm) and the
            American Type Culture Collection (#27264).
            Annotation was added by the NCBI Prokaryotic Genome Annotation
            Pipeline (released 2013). Information about the Pipeline can be
            found here: https://www.ncbi.nlm.nih.gov/genome/annotation_prok/
            
            ##Genome-Annotation-Data-START##
            Annotation Provider               :: NCBI
            Annotation Date                   :: 04/14/2017 15:43:09
            Annotation Pipeline               :: NCBI Prokaryotic Genome
                                                 Annotation Pipeline
            Annotation Method                 :: Best-placed reference protein
                                                 set; GeneMarkS+
            Annotation Software revision      :: 4.1
            Features Annotated                :: Gene; CDS; rRNA; tRNA; ncRNA;
                                                 repeat_region
            Genes (total)                     :: 3,223
            CDS (total)                       :: 3,171
            Genes (coding)                    :: 3,148
            CDS (coding)                      :: 3,148
            Genes (RNA)                       :: 52
            rRNAs                             :: 2, 2, 2 (5S, 16S, 23S)
            complete rRNAs                    :: 2, 2, 2 (5S, 16S, 23S)
            tRNAs                             :: 42
            ncRNAs                            :: 4
            Pseudo Genes (total)              :: 23
            Pseudo Genes (ambiguous residues) :: 0 of 23
            Pseudo Genes (frameshifted)       :: 17 of 23
            Pseudo Genes (incomplete)         :: 4 of 23
            Pseudo Genes (internal stop)      :: 6 of 23
            Pseudo Genes (multiple problems)  :: 3 of 23
            CRISPR Arrays                     :: 3
            ##Genome-Annotation-Data-END##
            COMPLETENESS: full length.
FEATURES             Location/Qualifiers
     source          1..3008047
                     /organism="Synechococcus sp. PCC 7002"
                     /mol_type="genomic DNA"
                     /strain="CC 7002; ATCC 27264"
                     /db_xref="ATCC:27264"
                     /db_xref="taxon:32049"
     gene            1..1350
                     /locus_tag="SYNPCC7002_RS00010"
                     /old_locus_tag="SYNPCC7002_A0001"
     CDS             1..1350
                     /locus_tag="SYNPCC7002_RS00010"
                     /old_locus_tag="SYNPCC7002_A0001"
                     /inference="COORDINATES: similar to AA
                     sequence:RefSeq:WP_012305643.1"
                     /note="Derived by automated computational analysis using
                     gene prediction method: Protein Homology."
                     /codon_start=1
                     /transl_table=11
                     /product="chromosomal replication initiator protein DnaA"
                     /protein_id="WP_012305643.1"
                     /translation="MTQNPQWLWQEVLTKLEQQLSRPTYETWIQPTAIQQWREDEIVL
                     CAPNAFVLNHIQKYYGALITETIAELLQQPVKVRLTSPEGNTLAATQSFYSSRSGQST
                     RPGKKTPELNSKYTFSRFVVGPTNRMAHAAALAVAESPGRDFNPLVLCGGVGLGKTHL
                     MQAIGHYRLDTQPDAKIFYVSTEQFTNDLIVAIRKDSLQTFREHYRTADILLVDDIQF
                     IEGKEYTQEEFFYTFNTLHEAGKQIVLASDRPPHQIPGLQQRLSSRFSMGLIADIQPP
                     DLETRMAILQKKAEAENLNLSRSVIEYIATHYTANIRELEGALLRAVTHIAISGLPMT
                     VENLAPILNPTVEYAPAAPDVILQIAAEATGVSIEDLKGASRRREISTARQIAMYLMR
                     QHTDLSLPRIGELFGGKDHTTVMYSCDKIGQLLTKNQKISQLVSQISDRINHHHQNL"
不知道这个是不是gbk的文件格式
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-18 23:59 , Processed in 0.027584 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.