在Python中生成支持CUDA的扩展模块的步骤：torch.utils.cpp_extension

发布时间：2024-01-14 05:59:46

在Python中生成支持CUDA的扩展模块的步骤主要涉及以下几个方面：

1. 编写C++源代码或CUDA源代码，这些源代码将用于编译成扩展模块。

2. 使用torch.utils.cpp_extension来编译扩展模块，并设置相关参数。

3. 在Python中导入生成的扩展模块，并使用它。

下面是一个使用torch.utils.cpp_extension来生成并使用支持CUDA的扩展模块的示例。

步骤1：编写C++和CUDA源代码

假设我们要编写一个简单的增加函数，将一个张量的每个元素加上一个常数。

首先，创建名为add_cpu.cpp的C++源文件，并编写如下代码：

#include <torch/extension.h>

torch::Tensor add_cpu(torch::Tensor input, float value) {
    return input + value;
}

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
    m.def("add_cpu", &add_cpu, "Add function (CPU)");
}

然后，在同一目录下创建名为add_cuda.cu的CUDA源文件，并编写如下代码：

#include <ATen/ATen.h>

template <typename scalar_t>
__global__ void add_cuda_kernel(const int n, scalar_t* input, const float value) {
    const int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < n) {
        input[index] += value;
    }
}

torch::Tensor add_cuda(torch::Tensor input, float value) {
    const auto n = input.numel();
    torch::Tensor output = torch::zeros_like(input);

    const int threads = 512;
    const int blocks = (n + threads - 1) / threads;

    AT_DISPATCH_FLOATING_TYPES(input.type(), "add_cuda", ([&] {
        add_cuda_kernel<scalar_t><<<blocks, threads>>>(n, input.data<scalar_t>(), value);
    }));

    return output;
}

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
    m.def("add_cuda", &add_cuda, "Add function (CUDA)");
}

步骤2：使用torch.utils.cpp_extension编译扩展模块

现在，我们可以使用torch.utils.cpp_extension来编译我们的扩展模块，生成可供Python使用的动态链接库。在Python中，我们可以使用它来加速我们的计算。

首先，在Python中导入torch.utils.cpp_extension：

import torch
from torch.utils.cpp_extension import CUDAExtension, BuildExtension

然后，按照以下代码示例编译扩展：

extra_compile_args = {'cxx': [],
                    'nvcc': ['-O2']}

cuda_ext = CUDAExtension(name='add', sources=['add_cpu.cpp', 'add_cuda.cu'], 
                        extra_compile_args=extra_compile_args,
                        include_dirs=torch.utils.cpp_extension.include_paths(cuda=True))

setup_args = {'ext_modules': [cuda_ext],
              'cmdclass': {'build_ext': BuildExtension}}

torch.utils.cpp_extension.BuildExtension.build_cuda_extension(cuda_ext, '/path/to/save/extension')

在上述代码中，我们将我们的C++和CUDA源文件添加到了CUDAExtension的sources参数中，还可以通过extra_compile_args来设置编译选项。接下来，我们将设置好的CUDAExtension对象作为ext_modules参数传递给BuildExtension类，并将其作为成员赋值给cmdclass参数。最后，我们调用build_cuda_extension方法来编译并生成扩展模块。

步骤3：在Python中导入生成的扩展模块，并使用它

完成编译后，我们可以在Python中导入生成的扩展模块，并使用其中的函数。在上面的例子中，我们可以进行如下操作：

import torch
import add

# 执行在CPU上的add函数
input = torch.tensor([1, 2, 3])
value = 4
output = add.add_cpu(input, value)
print(output)  # tensor([5, 6, 7])

# 将张量移动到GPU上
input_cuda = input.cuda()

# 执行在GPU上的add函数
output_cuda = add.add_cuda(input_cuda, value)
print(output_cuda)  # tensor([5, 6, 7], device='cuda:0')

通过以上步骤，我们就可以在Python中成功生成并使用支持CUDA的扩展模块了。