使用Python的Bio.SeqIO库进行生物序列文件读取

发布时间：2024-01-18 05:01:42

Bio.SeqIO是BioPython库中的一个模块，用于处理生物序列文件的读取和写入。它支持多种生物序列文件格式，包括FASTA、GenBank、EMBL等。

以下是Bio.SeqIO库的使用示例：

1. 从FASTA文件中读取序列

from Bio import SeqIO

fasta_file = "sequence.fasta"

for record in SeqIO.parse(fasta_file, "fasta"):
    print("ID:", record.id)
    print("Sequence:", record.seq)

上述代码从名为"sequence.fasta"的FASTA文件中读取序列。通过SeqIO.parse函数可以逐个读取文件中的记录，每个记录包含一个序列的ID和序列内容。

2. 从GenBank文件中读取序列

from Bio import SeqIO

genbank_file = "sequence.gb"

for record in SeqIO.parse(genbank_file, "genbank"):
    print("ID:", record.id)
    print("Sequence:", record.seq)
    print("Description:", record.description)

上述代码从名为"sequence.gb"的GenBank文件中读取序列。和FASTA文件读取类似，SeqIO.parse函数可以逐个读取文件中的记录。由于GenBank格式文件中包含更多的信息，因此还可以获取记录的描述信息。

3. 将序列写入FASTA文件

from Bio import SeqIO

sequences = [
    SeqRecord(Seq("ACGT"), id="seq1", description="Sequence 1"),
    SeqRecord(Seq("TGCA"), id="seq2", description="Sequence 2")
]

SeqIO.write(sequences, "output.fasta", "fasta")

上述代码创建了两个序列记录，并将它们写入名为"output.fasta"的FASTA文件中。SeqIO.write函数需要传入一个记录列表、输出文件名以及文件格式参数。

4. 从FASTQ文件中读取序列和质量信息

from Bio import SeqIO

fastq_file = "sequence.fastq"

for record in SeqIO.parse(fastq_file, "fastq"):
    print("ID:", record.id)
    print("Sequence:", record.seq)
    print("Quality scores:", record.letter_annotations["phred_quality"])

上述代码从名为"sequence.fastq"的FASTQ文件中读取序列和质量信息。FASTQ文件中的每个记录都包括一个序列以及对应的质量分数，可以通过record.letter_annotations["phred_quality"]获取质量分数列表。

总结：Bio.SeqIO库提供了简单而强大的功能，可以方便地读取和写入生物序列文件。无论是FASTA、GenBank还是FASTQ等格式，只需要使用对应的格式参数即可实现相应的操作。通过BioPython库的这个模块，我们可以方便地处理生物序列数据，并进行各种进一步的分析和操作。