gpt4 book ai didi

xml - 在 Golang 中解码时如何获取 XML 标签的字符数据和属性值

转载 作者:行者123 更新时间:2023-12-05 05:48:41 25 4
gpt4 key购买 nike

我的 XML 文件类似于这样的东西:

<page>
<title>Antoine Meillet</title>
<ns>0</ns>
<id>3</id>
<revision>
<id>178204512</id>
<parentid>178097574</parentid>
<timestamp>2020-12-30T10:12:14Z</timestamp>
<contributor>
<username>Rovo</username>
<id>34820</id>
</contributor>
<minor />
<model>wikitext</model>
<format>text/x-wiki</format>
<text bytes="11274" xml:space="preserve">
a lot of text
</text>
<sha1>ikqy1f9ppwo8eo38a0hh817eynr40vg</sha1>
</revision>
</page>

我的目标是过滤掉很多这些标签,只保留 page 标签和那些内部标签:titleid文本

到目前为止,我已经能够成功提取具有正确值的 titleidpage 标签。这是我得到的:

<page>
<title>Antoine Meillet</title>
<id>3</id>
<text bytes="0" xml:space=""></text>
</page>
<page>
<title>Algèbre linéaire</title>
<id>7</id>
<text bytes="0" xml:space=""></text>
</page>

因此,如您所见,这里的问题是 text 标签的属性值不正确,并且其中缺少文本。

我使用这段代码实现了这一点:

package main

import (
"encoding/xml"
"fmt"
"io"
"os"
)

type Page struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
}

func main() {
frwikiXML, err := os.Open("frwiki10000.xml")
if err != nil {
fmt.Println(err)
}
cleanedWikiXML, err := os.Create("cleaned_fr_wiki.xml")
if err != nil {
fmt.Println(err)
}

cleanXMLEncoder := xml.NewEncoder(cleanedWikiXML)
cleanXMLEncoder.Indent("", " ")

frwikiDecoder := xml.NewDecoder(frwikiXML)
for {
t, tokenErr := frwikiDecoder.Token()
if tokenErr != nil {
if tokenErr == io.EOF {
break
}
fmt.Errorf("decoding token: %w", tokenErr)
}
switch t := t.(type) {
case xml.StartElement:
if t.Name.Local == "page" {
var page Page
if err := frwikiDecoder.DecodeElement(&page, &t); err != nil {
fmt.Errorf("decoding element %q: %v", t.Name.Local, err)
}
fmt.Println("Element was decoded successfully.")
fmt.Printf("Page title: %v\n Page id: %d\n", page.Title, page.Id)
fmt.Printf("Text: %v", page.Text)
cleanXMLEncoder.Encode(page)
}
}
}

defer frwikiXML.Close()
defer cleanedWikiXML.Close()
}

请问我该如何解决这个问题?

谢谢。

最佳答案

要解析大文件 xml 文件,请使用标准 xml Decoder .

调用Token一个一个地读取标记。当找到具有所需名称的起始元素(“页面”)时,调用 DecodeElement 对该元素进行解码并为下一步操作准备结果。

type Page struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Revision struct {
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
} `xml:"revision"`
}

type PageTarget struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
}
    dec := xml.NewDecoder(strings.NewReader(sample))

loop:
for {
tok, err := dec.Token()
switch {
case err != nil && err != io.EOF:
panic(err)
case err == io.EOF:
break loop
case tok == nil:
fmt.Println("token is nill")

}

switch se := tok.(type) {
case xml.StartElement:
if se.Name.Local == "page" {
var page Page
if err := dec.DecodeElement(&page, &se); err != nil {
panic(err)
}

target := PageTarget{
XMLName: page.XMLName,
Id: page.Id,
Title: page.Title,
Text: page.Revision.Text,
}

out, err := xml.MarshalIndent(target, " ", " ")
if err != nil {
panic(err)
}
fmt.Println(string(out))
}
}
}

PLAYGROUND

关于xml - 在 Golang 中解码时如何获取 XML 标签的字符数据和属性值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70778945/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com