如何在 Vertex AI 中使用新数据重新训练模型?Python 实现指南

Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加;必须基于更新后的数据集创建全新模型,本文详解完整流程与 Python 实践方法。

Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加;必须基于更新后的数据集创建全新模型,本文详解完整流程与 Python 实践方法。

在 Google Vertex AI 中,无论是使用 AutoML 图像、文本还是表格模型,模型一旦训练完成并部署,即为不可变对象(immutable)。这意味着你无法通过 API 或 SDK “更新”或“追加训练”已有模型——即使只是新增几十条标注样本。这是由 Vertex AI 的底层设计决定的:每个模型版本对应唯一的数据集快照、训练配置与超参组合,不提供权重微调(fine-tuning)或持续学习(continual learning)机制(尤其对 AutoML 模型而言)。

因此,正确的再训练(retraining)流程是:

  1. 扩展现有数据集:将新数据上传至 Cloud Storage,并通过 aiplatform SDK 将其导入到原始数据集(或新建数据集);
  2. 创建新模型:基于更新后的数据集,调用 AutoMLTrainingJob 启动新一轮训练;
  3. 部署新模型:将训练完成的新模型部署至现有 Endpoint(可替换旧版本)或新建 Endpoint;
  4. (可选)版本管理:利用 Endpoint 的流量分配功能实现灰度发布与 A/B 测试。

以下是关键 Python 示例(基于 google-cloud-aiplatform==1.50.0+):

from google.cloud import aiplatform

# 初始化
aiplatform.init(project="your-project-id", location="us-central1")

# 步骤1:获取现有数据集(假设已知 dataset_id)
dataset = aiplatform.ImageDataset(dataset_name="projects/123456789/locations/us-central1/datasets/1234567890123456789")

# 步骤2:向数据集添加新数据(需提前整理为 CSV + GCS 文件路径)
# 注意:AutoML 数据集支持「追加」操作(仅限未锁定状态),但仅影响数据集内容,不触发自动重训
dataset.import_data(
    gcs_source=["gs://my-bucket/new-data.csv"],
    import_schema_uri=aiplatform.schema.dataset.io_format.image.single_label_classification
)

# 步骤3:启动新训练任务(使用相同/优化后的训练参数)
job = aiplatform.AutoMLImageTrainingJob(
    display_name="my-model-retrain-v2",
    prediction_type="classification",
    multi_label=False,
)

# 使用同一数据集(含新增样本)训练新模型
model = job.run(
    dataset=dataset,
    model_display_name="my-model-v2",
    training_filter_split=None,  # 可复用原划分逻辑
    budget_milli_node_hours=8000,
)

# 步骤4:部署至现有 Endpoint(替换流量)
endpoint = aiplatform.Endpoint(endpoint_name="projects/123456789/locations/us-central1/endpoints/9876543210987654321")
endpoint.deploy(
    model=model,
    deployed_model_display_name="my-model-v2-prod",
    traffic_percentage=100,  # 全量切流
    machine_type="n1-standard-4"
)

⚠️ 重要注意事项

总结来说:Vertex AI AutoML 的再训练本质是「重建而非更新」。虽然缺乏热更新能力,但通过标准化的数据集管理 + SDK 自动化 + Endpoint 版本控制,你仍可高效实现模型迭代闭环。如确需原生增量学习支持,建议通过 Google Cloud Issue Tracker 提交正式 Feature Request。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。