- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的 XML 文件类似于这样的东西:
<page>
<title>Antoine Meillet</title>
<ns>0</ns>
<id>3</id>
<revision>
<id>178204512</id>
<parentid>178097574</parentid>
<timestamp>2020-12-30T10:12:14Z</timestamp>
<contributor>
<username>Rovo</username>
<id>34820</id>
</contributor>
<minor />
<model>wikitext</model>
<format>text/x-wiki</format>
<text bytes="11274" xml:space="preserve">
a lot of text
</text>
<sha1>ikqy1f9ppwo8eo38a0hh817eynr40vg</sha1>
</revision>
</page>
我的目标是过滤掉很多这些标签,只保留 page
标签和那些内部标签:title
、id
、 文本
。
到目前为止,我已经能够成功提取具有正确值的 title
和 id
的 page
标签。这是我得到的:
<page>
<title>Antoine Meillet</title>
<id>3</id>
<text bytes="0" xml:space=""></text>
</page>
<page>
<title>Algèbre linéaire</title>
<id>7</id>
<text bytes="0" xml:space=""></text>
</page>
因此,如您所见,这里的问题是 text
标签的属性值不正确,并且其中缺少文本。
我使用这段代码实现了这一点:
package main
import (
"encoding/xml"
"fmt"
"io"
"os"
)
type Page struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
}
func main() {
frwikiXML, err := os.Open("frwiki10000.xml")
if err != nil {
fmt.Println(err)
}
cleanedWikiXML, err := os.Create("cleaned_fr_wiki.xml")
if err != nil {
fmt.Println(err)
}
cleanXMLEncoder := xml.NewEncoder(cleanedWikiXML)
cleanXMLEncoder.Indent("", " ")
frwikiDecoder := xml.NewDecoder(frwikiXML)
for {
t, tokenErr := frwikiDecoder.Token()
if tokenErr != nil {
if tokenErr == io.EOF {
break
}
fmt.Errorf("decoding token: %w", tokenErr)
}
switch t := t.(type) {
case xml.StartElement:
if t.Name.Local == "page" {
var page Page
if err := frwikiDecoder.DecodeElement(&page, &t); err != nil {
fmt.Errorf("decoding element %q: %v", t.Name.Local, err)
}
fmt.Println("Element was decoded successfully.")
fmt.Printf("Page title: %v\n Page id: %d\n", page.Title, page.Id)
fmt.Printf("Text: %v", page.Text)
cleanXMLEncoder.Encode(page)
}
}
}
defer frwikiXML.Close()
defer cleanedWikiXML.Close()
}
请问我该如何解决这个问题?
谢谢。
最佳答案
要解析大文件 xml
文件,请使用标准 xml Decoder .
调用Token一个一个地读取标记。当找到具有所需名称的起始元素(“页面”)时,调用 DecodeElement 对该元素进行解码并为下一步操作准备结果。
type Page struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Revision struct {
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
} `xml:"revision"`
}
type PageTarget struct {
XMLName xml.Name `xml:"page"`
Title string `xml:"title"`
Id int64 `xml:"id"`
Text struct {
Key float32 `xml:"bytes,attr"`
Space string `xml:"xml:space,attr"`
} `xml:"text"`
}
dec := xml.NewDecoder(strings.NewReader(sample))
loop:
for {
tok, err := dec.Token()
switch {
case err != nil && err != io.EOF:
panic(err)
case err == io.EOF:
break loop
case tok == nil:
fmt.Println("token is nill")
}
switch se := tok.(type) {
case xml.StartElement:
if se.Name.Local == "page" {
var page Page
if err := dec.DecodeElement(&page, &se); err != nil {
panic(err)
}
target := PageTarget{
XMLName: page.XMLName,
Id: page.Id,
Title: page.Title,
Text: page.Revision.Text,
}
out, err := xml.MarshalIndent(target, " ", " ")
if err != nil {
panic(err)
}
fmt.Println(string(out))
}
}
}
关于xml - 在 Golang 中解码时如何获取 XML 标签的字符数据和属性值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70778945/
我正在尝试运行这段代码,用随机数替换字符串中的一个字符: //Get the position between 0 and the length of the string-1 to insert
我有一个包含 3 个位置的数组,假设它的所有位置都是数字 5。 [5 5 5] 我怎样才能以保持 555 的方式将它传递给 var?就像这样。 n:= 555 最佳答案 与使用任何其他语言的方式相同:
我使用 go dep 工具版本 v0.4.1,现在当我运行 dep init 时它会按预期创建 2 个文件,当我打开 gopkg.lock 我发现例如以下内容 [[projects]] name
我正在制作学习联系申请。我有一个 NewContact()。 // Contact - defines the fields of an entire Contact type Contact str
我一直在尝试使用该模块: https://godoc.org/github.com/hirochachacha/go-smb2#RemoteFile.ReadAt 为了在 Windows 机器上对我的
我需要在 golang 中编译 golang 中的程序。有没有不使用 exec.Command("go","build") 的原生形式? 最佳答案 不幸的是,我认为使用 exec.Command 是利
编写输出有效 go 代码的 go 应用程序可能最好使用内置的“go”包及其一些子包(“go/ast”、“go/token”、“go/printer”、等)。 要创建字符串文字表达式,您需要创建一个 a
我正在尝试使用 Golang 和 gin 为我的 api 和前端编写代理。如果请求转到除“/api”之外的任何内容,我想代理到 svelte 服务器。如果出现“/api/something”,我想在
我偶然发现了这个博客:using go as a scripting language并尝试创建一个可用于运行 golang 脚本的自定义图像,即 FROM golang:1.15 RUN go ge
我刚开始接触golang,我需要从json字符串中获取数据。 {"data" : ["2016-06-21","2016-06-22","2016-06-25"], "sid" : "ab", "di
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 3 年前。 Improve
我是 goland 的新手,试图在我的第一个项目中使用它。我注意到在 goland 中它没有显示通过容器引入的相同 golang SDK。 这是我的 Dockerfile: FROM golang:1
我正在试用 golang-neo4j-bolt-driver 包 github.com/johnnadratowski/golang-neo4j-bolt-driver 我已经导入了包并正在使用创建新
如果我安装了Go发行版软件包,则会在/usr/lib/golang/pkg中看到很多文件,在/usr/lib/golang/src中看到非常相似的文件集。这两组之间有什么关系? pkg是从src中的源
我发现 golang 上下文对于在客户端-服务器请求范围内取消服务器的处理很有用。 我可以使用 http.Request.WithContext 方法发出带有上下文的 http 请求,但是如果客户端不
我正在尝试将一个 golang 数组(还有 slice、struct 等)放置到 HTML 中,这样当从 golang gin web 框架返回 HTML 时,我可以在 HTML 元素内容中使用数组元
目前正在使用这个 ffmpeg 命令编辑视频 ffmpeg -i "video1.ts" -c:v libx264 -crf 20 -c:a aac -strict -2 "video1-fix.ts
我需要从 play.golang.org 链接读取 golang 代码并保存到 .go 文件。我想知道 play.golang.org 是否有任何公共(public) API 支持。我用谷歌搜索但没有
我第一次使用 IntelliJ 的最新 (2014-01-03) Golang 插件。 通常,我的终端工作流程是 go build && ./executable -args=1 所以我试图创建一个启
这个问题只是在构建之间随机出现,现在甚至我们的生产 repo,几个月都没有改变,在构建时也会出现这个问题。我已经坚持了一段时间。它不会发生在我们的本地机器上,只有在使用 dockerfile 时才会发
我是一名优秀的程序员,十分优秀!