Python中LoadJobConfig()函数的使用示例及相关技巧

发布时间：2023-12-24 12:07:34

在Python中使用BigQuery的LoadJobConfig函数可以配置和控制加载作业（Load Job）。加载作业是将数据从一个外部源（如本地文件、Google Cloud Storage或Google Drive）加载到BigQuery表中的操作。

下面是一个使用示例，展示了如何使用LoadJobConfig函数来配置和执行加载作业：

from google.cloud import bigquery

# 创建一个BigQuery客户端
client = bigquery.Client()

# 创建一个加载作业配置对象
load_config = bigquery.LoadJobConfig()

# 配置加载作业
load_config.skip_leading_rows = 1   # 跳过CSV文件的第一行（通常为标题）
load_config.source_format = bigquery.SourceFormat.CSV   # 指定数据源的格式为CSV
load_config.field_delimiter = ","   # 指定CSV文件的字段分隔符

# 指定要加载数据的表
table_ref = bigquery.TableReference.from_string("my-project.my-dataset.my-table")
load_config.destination = table_ref

# 指定要加载的数据源
uri = "gs://my-bucket/my-file.csv"
load_config.source = bigquery.SourceFormat.CSV

# 执行加载作业
job = client.load_table_from_uri(uri, table_ref, job_config=load_config)

# 等待加载作业完成
job.result()

# 打印加载作业的状态
print("Load job state: ", job.state)

在上面的示例中，首先创建了一个BigQuery客户端对象，并且创建了一个LoadJobConfig对象来配置加载作业。然后，通过设置LoadJobConfig对象的属性来指定加载作业的配置，如跳过CSV文件的第一行、指定CSV文件的字段分隔符等。接下来，指定要加载数据的表和数据源的URI，并使用客户端对象的load_table_from_uri方法执行加载作业。最后，通过等待加载作业的完成，并打印加载作业的状态来完成加载作业。

示例中的load_config对象具有多个其他属性，可用于配置加载作业。例如，可以使用load_config.schema属性来指定要加载的数据源的模式（schema）信息，使用load_config.max_bad_records属性来指定当加载作业发现损坏的记录时的最大错误记录数量等。

作为使用示例的一个技巧，可以使用job.result()方法来阻塞代码，直到加载作业完成。这样可以确保在访问加载后的数据之前，数据已成功加载到BigQuery中。

总结起来，通过使用LoadJobConfig函数可以灵活地配置和控制加载作业，并在Python中与BigQuery的交互中实现数据的导入功能。