如何在Python中使用torchaudiosave()函数将音频数据保存为指定长度的文件

发布时间：2024-01-13 11:08:10

在Python中，可以使用torchaudio.save()函数将音频数据保存为指定长度的文件。torchaudio.save()函数的语法如下：

torchaudio.save(filepath, tensor, sample_rate, [compression_type=None])

该函数需要传入四个参数：

- filepath：保存音频文件的路径（包含文件名和文件格式后缀）

- tensor：音频数据的张量，可以是一维或二维张量。对于采样率为1的单声道音频，一维张量存储音频样本，二维张量的个维度存储音频的声道数，第二个维度存储音频样本。

- sample_rate：音频数据的采样率，表示每秒钟采样的样本数。

- compression_type（可选）：压缩类型，支持“None”（无压缩）和“GSM”两种。

下面是一个使用torchaudio.save()函数将音频数据保存为指定长度文件的简单示例：

import torch
import torchaudio

# 创建一个 5 秒钟的音频数据张量
sample_rate = 44100
duration = 5  # 5 秒钟
num_samples = sample_rate * duration
audio_tensor = torch.randn(num_samples)

# 设置保存文件的路径
save_path = "example.wav"

# 调用 torchaudio.save() 函数保存音频数据为指定长度的文件
torchaudio.save(save_path, audio_tensor, sample_rate)

print(f"音频数据保存到文件：{save_path}")

上述示例中，我们首先创建了一个 5 秒钟的音频数据张量audio_tensor。然后，使用torchaudio.save()函数将该音频数据保存为文件"example.wav"。最后，输出保存文件的路径。

请注意，上述示例中保存的音频文件是单声道的。如果您有多声道音频数据，可以将音频手动转换为二维张量，并调整张量的shape以匹配正确的声道数和样本数。