Go XML 解析失败:正确处理 ISO-8859-1 编码的 Atom 响应

Go 的 xml.Unmarshal 默认仅支持 UTF-8,当解析含 encoding="ISO-8859-1" 的 XML(如 SEC Atom Feed)时会静默失败;需改用 xml.Decoder 并配置 CharsetReader 以自动转码。

Go 的 `xml.Unmarshal` 默认仅支持 UTF-8,当解析含 `encoding="ISO-8859-1"` 的 XML(如 SEC Atom Feed)时会静默失败;需改用 `xml.Decoder` 并配置 `CharsetReader` 以自动转码。

在 Go 中解析外部 XML 数据(尤其是来自政府或金融类 API,如美国证券交易委员会 SEC 的 EDGAR Atom Feed)时,一个常见却隐蔽的问题是:XML 声明中指定的编码(如 encoding="ISO-8859-1")与 Go 标准库的 encoding/xml 包默认行为不兼容。

xml.Unmarshal([]byte, interface{}) 要求输入字节流必须为 UTF-8 编码。若原始响应使用 ISO-8859-1(即 Latin-1),而你直接将 resp.Body 读取为 []byte 后传入 Unmarshal,Go 不会报错,但字段解析会失败(如 Title、ID 均为空字符串)——因为解码器在遇到非法 UTF-8 字节序列时选择跳过而非转换,导致结构体字段无法正确填充。

✅ 正确做法是:避免先读取全部字节,改用 xml.Decoder 流式解析,并显式注册字符集转换器。Go 生态中,golang.org/x/net/html/charset 提供了健壮的 NewReaderLabel 函数,可自动识别并转换常见编码(包括 ISO-8859-1、Windows-1252、UTF-16 等)为 UTF-8。

以下是修复后的完整示例代码:

package main

import (
    "encoding/xml"
    "fmt"
    "io"
    "net/http"
    "golang.org/x/net/html/charset"
)

type entry struct {
    XMLName  xml.Name `xml:"entry"`
    Title    string   `xml:"title"`
    Link     string   `xml:"link"`
    Summary  string   `xml:"summary"`
    Updated  string   `xml:"updated"`
    Category string   `xml:"category"` // 注意:原文中拼写为 "catagory",但标准 Atom 规范为 "category"
    ID       string   `xml:"id"`
}

type Feed struct {
    XMLName xml.Name `xml:"feed"`
    Title   string   `xml:"title"`
    Entry   []entry  `xml:"entry"`
}

func main() {
    resp, err := http.Get("https://www.sec.gov/cgi-bin/browse-edgar?action=getcurrent&type=4&company=&dateb=&owner=include&start=0&count=2&output=atom")
    if err != nil {
        fmt.Printf("HTTP request failed: %v\n", err)
        return
    }
    defer resp.Body.Close()

    // 关键:使用 xml.Decoder 替代 xml.Unmarshal
    decoder := xml.NewDecoder(resp.Body)
    // 注册 charset.NewReaderLabel 作为 CharsetReader,
    // 它能根据 XML 声明中的 encoding 属性自动选择并转换字符集
    decoder.CharsetReader = charset.NewReaderLabel

    var feedData Feed
    if err := decoder.Decode(&feedData); err != nil {
        if err == io.EOF {
            fmt.Println("Warning: XML ended unexpectedly")
        } else {
            fmt.Printf("XML decode error: %v\n", err)
            return
        }
    }

    fmt.Printf("Feed Title: %q\n", feedData.Title)
    for i, e := range feedData.Entry {
        fmt.Printf("Entry %d ID: %q\n", i+1, e.ID)
    }
}

? 关键要点与注意事项:

通过上述方式,你的 Go 程序即可健壮地解析各类编码的 XML 响应,无需手动预处理或硬编码移除 XML 声明——既符合标准,又具备生产环境所需的鲁棒性。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。