torchaudiosave()函数的参数详解及示例

发布时间：2024-01-13 11:04:16

torchaudio.save()是一个用于保存音频文件的函数，它接受三个参数：文件路径、音频数据和采样率。

参数详解：

1. file_path (str): 保存文件的路径。可以是绝对路径，也可以是相对路径。文件的扩展名决定了保存文件的格式。常见的音频格式包括.wav、.mp3、.flac等。

2. tensor (torch.Tensor): 音频数据。它是一个包含音频波形样本的张量。张量的形状应为（通道数，样本数）。如果是单声道音频，则通道数应为1；如果是立体声音频，则通道数应为2。

3. sample_rate (int): 采样率，即每秒采样的样本数。例如，采样率为16000表示每秒采样16000个样本。

使用示例：

import torch
import torchaudio

# 创建音频数据张量
waveform = torch.linspace(-1, 1, 16000)  # 创建长度为16000的音频波形
waveform = waveform.view(1, -1)  # 将波形转换为单声道数据

# 保存音频文件
file_path = 'output.wav'  # 设置保存文件路径和文件名
sample_rate = 16000  # 设置采样率
torchaudio.save(file_path, waveform, sample_rate)

在以上示例中，我们使用torch.linspace()函数生成了一个长度为16000的序列作为音频波形数据。接着，我们使用waveform.view(1, -1)将波形数据转换为单声道数据。然后，我们通过设置文件路径和文件名为'output.wav'，采样率为16000，调用torchaudio.save()函数保存了音频文件。

需要注意的是，torchaudio.save()函数仅适用于确定了长度的波形数据。对于长度不确定的波形，可以使用torchaudio.sox_io_backend.save()函数保存音频文件，并提供支持更多格式的文件保存能力。