
Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加;必须基于更新后的数据集创建全新模型,本文详解完整流程与 Python 实践方法。
Vertex AI 当前不支持对已部署的 AutoML 模型进行增量训练或数据追加;必须基于更新后的数据集创建全新模型,本文详解完整流程与 Python 实践方法。
在 Google Vertex AI 中,无论是使用 AutoML 图像、文本还是表格模型,模型一旦训练完成并部署,即为不可变对象(immutable)。这意味着你无法通过 API 或 SDK “更新”或“追加训练”已有模型——即使只是新增几十条标注样本。这是由 Vertex AI 的底层设计决定的:每个模型版本对应唯一的数据集快照、训练配置与超参组合,不提供权重微调(fine-tuning)或持续学习(continual learning)机制(尤其对 AutoML 模型而言)。
因此,正确的再训练(retraining)流程是:
- 扩展现有数据集:将新数据上传至 Cloud Storage,并通过 aiplatform SDK 将其导入到原始数据集(或新建数据集);
- 创建新模型:基于更新后的数据集,调用 AutoMLTrainingJob 启动新一轮训练;
- 部署新模型:将训练完成的新模型部署至现有 Endpoint(可替换旧版本)或新建 Endpoint;
- (可选)版本管理:利用 Endpoint 的流量分配功能实现灰度发布与 A/B 测试。
以下是关键 Python 示例(基于 google-cloud-aiplatform==1.50.0+):
from google.cloud import aiplatform
# 初始化
aiplatform.init(project="your-project-id", location="us-central1")
# 步骤1:获取现有数据集(假设已知 dataset_id)
dataset = aiplatform.ImageDataset(dataset_name="projects/123456789/locations/us-central1/datasets/1234567890123456789")
# 步骤2:向数据集添加新数据(需提前整理为 CSV + GCS 文件路径)
# 注意:AutoML 数据集支持「追加」操作(仅限未锁定状态),但仅影响数据集内容,不触发自动重训
dataset.import_data(
gcs_source=["gs://my-bucket/new-data.csv"],
import_schema_uri=aiplatform.schema.dataset.io_format.image.single_label_classification
)
# 步骤3:启动新训练任务(使用相同/优化后的训练参数)
job = aiplatform.AutoMLImageTrainingJob(
display_name="my-model-retrain-v2",
prediction_type="classification",
multi_label=False,
)
# 使用同一数据集(含新增样本)训练新模型
model = job.run(
dataset=dataset,
model_display_name="my-model-v2",
training_filter_split=None, # 可复用原划分逻辑
budget_milli_node_hours=8000,
)
# 步骤4:部署至现有 Endpoint(替换流量)
endpoint = aiplatform.Endpoint(endpoint_name="projects/123456789/locations/us-central1/endpoints/9876543210987654321")
endpoint.deploy(
model=model,
deployed_model_display_name="my-model-v2-prod",
traffic_percentage=100, # 全量切流
machine_type="n1-standard-4"
)⚠️ 重要注意事项:
- 数据集必须处于 ACTIVE 状态才允许 import_data;若已用于训练且被锁定(如训练中或已部署),需先确认状态;
- AutoML 训练作业本身不支持“增量训练”,每次 run() 都是端到端全量训练,耗时与成本与首次训练相当;
- 若需降低运维成本,建议将数据集构建、训练、部署封装为可复用的流水线(Vertex AI Pipelines),配合 Cloud Build 触发自动化再训练;
- 对于自定义模型(Custom Training),可通过保存/加载 Checkpoint 实现真正意义上的微调,但 AutoML 不开放此能力。
总结来说:Vertex AI AutoML 的再训练本质是「重建而非更新」。虽然缺乏热更新能力,但通过标准化的数据集管理 + SDK 自动化 + Endpoint 版本控制,你仍可高效实现模型迭代闭环。如确需原生增量学习支持,建议通过 Google Cloud Issue Tracker 提交正式 Feature Request。