FASTQ格式

✍ dations ◷ 2025-03-07 04:32:50 #生物信息学,文件格式

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所(英语:Wellcome Trust Sanger Institute)开发,旨在将FASTA格式序列及其质量数据集成在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。

FASTQ文件中,一个序列通常由四行组成:

以下为一个包含单个序列的FASTQ文件示例:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下:


最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。

相关

  • CXCL9n/an/an/an/an/an/an/an/an/an/aCXCL9(英语:Chemokine (C-X-C motif) ligand 9)是一小分子的细胞因子属于CXC趋化因子家族,又被称作“干扰素伽玛诱导的单核细胞因子”(Monokine i
  • 性别二元论性别二元论,也称为英语:gender binary,法语:genre binaire,将生理性别(sex)和社会性别(gender)划分为只有男性和女性的两种二元性别,两性是相反且有区别的。在一般状况,大多数人是顺性
  • 公祷书坎特伯雷大主教 (贾斯汀·韦尔比) 普世圣公宗主教长会议 兰柏会议 普世圣公宗咨议会 主教/教区 主教制基督教 · 基督教教会 (耶稣 · 基督 · 圣保罗) 圣公宗(历史) 圣公宗
  • 杰斐逊纪念堂杰斐逊纪念堂(英语:Thomas Jefferson Memorial)是一座总统纪念馆,位于美国华盛顿哥伦比亚特区,为纪念美国开国元勋之一、美国独立宣言主要起草人兼主笔、大陆会议成员、独立后的
  • 2021年夏季世界大学生运动会2021年夏季世界大学生运动会(英语:XXXI 2021 Summer Universiade)简称为2021年成都大运会或成都大运会,是第31届夏季世界大学生运动会,将在2021年于中国四川省成都市举行,成都是继
  • 交互模式交互(英:Interaction)是发生在可以相互影响的两方或者更多方之间的行为。互连互通性是与交互紧密相连的一个概念,它是指同一系统内的交互之间的交互,多个简单交互的联合可能构成
  • 阿尔贝托·格拉纳多阿尔贝托·格拉纳多·希门内斯(西班牙语:Alberto Granado Jiménez;1922年8月8日-2011年3月5日),生于阿根廷科尔多瓦赫尔南,是阿根廷-古巴医生、作家与科学家。他是切·格瓦拉在游
  • 侯精一侯精一(1935年10月10日-),山西平遥人,中国现代语言学家。1952年进入北京大学中文系语言专修科学习。毕业后,被分配到中国科学院语言研究所方言组。1959年前往河北昌黎调查当地的方
  • 伊丽莎白·维杰·勒布伦伊丽莎白·维杰·勒布伦(Élisabeth Vigée Le Brun,1755年4月16日-1842年3月30日),又译薇姬·勒布伦,勒布伦夫人;18世纪后期法国杰出女画家。因给皇后玛丽·安托瓦内特绘画肖像而
  • 动宾主语序如果在句子中,主语(S)、宾语(O)、动词(V)按照“动-宾-主”的顺序排列,这种语序就被称为动-宾-主语序(VOS,Verb–Object–Subject)。像南岛语