FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所(英语:Wellcome Trust Sanger Institute)开发,旨在将FASTA格式序列及其质量数据集成在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。
FASTQ文件中,一个序列通常由四行组成:
以下为一个包含单个序列的FASTQ文件示例:
@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ^_`abcdefghijklmnopqrstuvwxyz{|}~
字符与对应的ASCII码如下:
最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。