如何在 Go 中解析嵌套 XML 并逐字段提取 CDATA 内部结构

本文详解如何用 Go 的 encoding/xml 包解析含 CDATA 的嵌套 XML,重点解决外层 XML 中 <detail> 标签包裹的内层 XML 字符串(如 PowerShell 执行配置)的二次解析问题,并实现对每个字段(如 swid、file_name、param 等)的独立访问。

本文详解如何用 Go 的 encoding/xml 包解析含 CDATA 的嵌套 XML,重点解决外层 XML 中 <detail> 标签包裹的内层 XML 字符串(如 PowerShell 执行配置)的二次解析问题,并实现对每个字段(如 swid、file_name、param 等)的独立访问。

Go 原生 encoding/xml 包不自动解析 CDATA 内容——它会将 <detail><![CDATA[...]]></detail> 中的内容作为原始字符串读取,而非嵌套 XML 结构。因此,解析此类数据需分两步:

  1. 第一层解析:提取外层 XML(如 <cm> 和 <task>),并将 <detail> 的 CDATA 内容作为 string 字段保存;
  2. 第二层解析:对提取出的 CDATA 字符串(本身是合法 XML)再次调用 xml.Unmarshal,映射到内层结构体。

✅ 正确结构体定义与标签说明

注意以下关键点:

以下是完整、可运行的结构体定义与解析示例:

package main

import (
    "encoding/xml"
    "fmt"
    "strings"
)

// 外层结构:对应 cm → task → detail(CDATA)
type TaskDataRes struct {
    XMLName xml.Name `xml:"cm"`
    ID      string   `xml:"id"`
    Task    Task     `xml:"task"`
}

type Task struct {
    Swid  string `xml:"swid"`
    Detail string `xml:"detail"` // ← 关键:用 string + 默认标签捕获 CDATA 文本
}

// 内层结构:对应 CDATA 中的 <execute> 元素
type Execute struct {
    XMLName   xml.Name `xml:"execute"`
    Name      string   `xml:"name,attr"` // 属性需加 ",attr"
    Swid      string   `xml:"swid"`
    Tskid     string   `xml:"tskid"`
    FileName  string   `xml:"file_name"`     // 注意下划线映射
    Param     string   `xml:"param"`
    Timeout   string   `xml:"timeout"`
    User      string   `xml:"user"`
    Passwd    string   `xml:"passwd"`
    Path      string   `xml:"path"`
    Pathtype  string   `xml:"pathtype"`
    Size      int      `xml:"size"`
    EncodedSize int    `xml:"encoded_size"` // 字段名可自定义,用 tag 映射
    Type      string   `xml:"type"`
    Outputdir string   `xml:"outputdir"`
    Outputfile string  `xml:"outputfile"`
    Alert     bool     `xml:"alert"`        // 支持 bool 自动转换 "true"/"false"
    Regkeypath string `xml:"regkeypath"`
    Regkeyval  string  `xml:"regkeyval"`
    Process    string  `xml:"process"`
    Service    string  `xml:"service"`
    Version    string  `xml:"version"`      // float64 易因空值 panic,建议 string 后手动转换
    AsuserFlag string `xml:"asuser_flag"`
}

func main() {
    xmlData := `<cm>
<id>TASK_DATA_RES</id>
<task>
    <swid>3873-0</swid>
    <detail><![CDATA[<execute name="EXECUTE">      
    <swid>3873</swid>
    <tskid>MONITOR0</tskid>
    <file_name>DiskStatusCheck.ps1</file_name>
    <param>/metricName::metric_3873_48 /metric::DiskStatusCheck /warn::1 /critical::1 /alert::1 /params::E:</param>
    <timeout></timeout>
    <user>test\\test</user>
    <passwd>test</passwd>
    <path>https://mspnocsupport.com/downloadScript.doaction=downloadAgent&fileName=DiskStatusCheck.ps1&version=5.00</path>
    <pathtype>local</pathtype>
    <size>9147</size>
    <encoded_size>9147</encoded_size>
    <type>POWERSHELL</type>
    <outputdir></outputdir>
    <outputfile></outputfile>
    <alert>false</alert>
    <regkeypath></regkeypath>
    <regkeyval></regkeyval>
    <process></process>
    <service></service>
    <version>5.00</version>
    <asuser_flag>0</asuser_flag>
    </execute>]]></detail>
</task>
</cm>`

    // Step 1: 解析外层 XML
    var res TaskDataRes
    if err := xml.Unmarshal([]byte(xmlData), &res); err != nil {
        panic("外层解析失败: " + err.Error())
    }

    fmt.Printf("外层任务 ID: %s, Swid: %s\n", res.ID, res.Task.Swid)
    fmt.Printf("CDATA 内容长度: %d\n", len(res.Task.Detail))

    // Step 2: 解析 CDATA 中的 XML(需确保字符串是合法 XML,trim 空格防干扰)
    cdataXML := strings.TrimSpace(res.Task.Detail)
    var exec Execute
    if err := xml.Unmarshal([]byte(cdataXML), &exec); err != nil {
        panic("内层解析失败: " + err.Error())
    }

    // ✅ 现在可安全访问每个字段
    fmt.Printf("执行名: %s\n", exec.Name)
    fmt.Printf("SWID: %s\n", exec.Swid)
    fmt.Printf("任务ID: %s\n", exec.Tskid)
    fmt.Printf("脚本文件: %s\n", exec.FileName)
    fmt.Printf("参数: %s\n", exec.Param)
    fmt.Printf("是否告警: %t\n", exec.Alert)
    fmt.Printf("版本号: %s\n", exec.Version)
}

⚠️ 注意事项与最佳实践

通过以上两阶段解析策略,你即可完全掌控 XML 中任意层级的数据,灵活访问每个细节字段,满足运维脚本配置、设备指令解析等典型场景需求。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。