FASTQ格式

✍ dations ◷ 2025-08-10 17:37:42 #生物信息学,文件格式

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所(英语:Wellcome Trust Sanger Institute)开发,旨在将FASTA格式序列及其质量数据集成在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。

FASTQ文件中,一个序列通常由四行组成:

以下为一个包含单个序列的FASTQ文件示例:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下:


最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。

相关

  • 尘暴尘暴,可能指:
  • 按揭抵押(mortgage),是指提供私人资产(不论是否为不动产)作为债务担保的动作,多发生于购买房地产时银行借出的抵押贷款或在典当商折现非不动产的物品。抵押常在银行或地产界使用。在广
  • 左江壮语右江壮语是壮语的一种,属北部台语支(英语:Northern Tai languages),通行于中国广西壮族自治区的左江流域一带,包括龙州、宁明、凭祥、崇左、大新和天等两县东部大部;以及越南北部的
  • 阿基米德立体阿基米德立体是一种高度对称的半正多面体,且使用两种或以上的正多边形为面的凸多面体,并且都是可以从正多面体经过截角、截半、截边等操作构造。阿基米德立体的每个顶点的情况
  • 塔斯基吉梅毒实验塔斯基吉梅毒实验是美国公共卫生局性病部门在1932年至1972年间于阿拉巴马州与塔斯基吉大学(当地历史悠久之黑人大学)合作,对近399名非洲裔男性梅毒患者及201名健康非洲裔男性所
  • 滨城区滨城区是中国山东省滨州市所辖的一个市辖区。滨城区辖12个街道、2个镇、1个乡:其中,杜店街道、里则街道、沙河街道由滨州经济开发区管理。
  • 玛丽·亨丽埃塔 (奥地利女大公)玛丽·亨丽埃塔(英语:Marie Henriette,1836年8月23日-1902年9月19日)是奥地利帝国女大公和比利时王国的第二任王后。她的丈夫是比利时国王利奥波德二世。玛丽·亨丽埃塔的父亲是
  • 麦氏点麦氏点(McBurney 点)通常以脐与右髂前上棘(英语:anterior superior iliac spine)连线的三分之一处为标志。这一点大致相当于阑尾和盲肠的连接处(或称阑尾根部)。在麦氏点的压痛被称
  • 丘玉芳丘玉芳(1949年-),广东梅县人,印度尼西亚归侨,中国女子羽毛球运动员。她曾获得1974年亚洲运动会和1978年亚洲运动会羽毛球比赛女子团体金牌。
  • 用心看台湾“《用心看台湾》已经走过XXX乡,下回用心来看你的故乡。”《用心看台湾》(英语:)为三立台湾台自制之行脚节目,为爱台客全系列节目之一,于2001年6月8日开播,目前于每周六晚上10时于