- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我想测量 GoLang 解析 XML 文件所花费的时间。所以,我决定编写一个基准。
我确实有一个生成包含 XML 文档的 io.Reader
的函数。
// PRIVATE: createSampleXMLReader creates an io.Reader instance that contains 10.000 '<Node />' elements which are
// suitable for running a benchmark test.
func createSampleXMLReader(
nodeElementCount int) io.Reader {
xmlContents := new(strings.Builder)
xmlContents.WriteString("<ROOT>\n")
for i := 0; i < nodeElementCount; i++ {
appendNodeXMLElement(xmlContents)
}
xmlContents.WriteString("</ROOT>")
return strings.NewReader(xmlContents.String())
}
// PRIVATE: appendNodeXMLElement appends a '<Node />' elements to an existing io.Reader instance.
func appendNodeXMLElement(
xmlDocument *strings.Builder) {
xmlDocument.WriteString("<Node id=\"0\" position=\"0\" depth=\"0\" parent=\"0\">\n")
xmlDocument.WriteString(" <Name>Name</Name>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <OwnInformation>\n")
xmlDocument.WriteString(" <Title>Title</Title>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" </OwnInformation>\n")
xmlDocument.WriteString(" <Assets>\n")
xmlDocument.WriteString(" <Asset id=\"0\" position=\"0\" type=\"0\" category=\"0\">\n")
xmlDocument.WriteString(" <OriginalFile>OriginalFile</OriginalFile>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <Uri>Uri</Uri>\n")
xmlDocument.WriteString(" </Asset>\n")
xmlDocument.WriteString(" <Asset id=\"1\" position=\"1\" type=\"1\" category=\"1\">\n")
xmlDocument.WriteString(" <OriginalFile>OriginalFile</OriginalFile>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <Uri>Uri</Uri>\n")
xmlDocument.WriteString(" </Asset>\n")
xmlDocument.WriteString(" <Asset id=\"2\" position=\"2\" type=\"2\" category=\"2\">\n")
xmlDocument.WriteString(" <OriginalFile>OriginalFile</OriginalFile>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <Uri>Uri</Uri>\n")
xmlDocument.WriteString(" </Asset>\n")
xmlDocument.WriteString(" <Asset id=\"3\" position=\"3\" type=\"3\" category=\"3\">\n")
xmlDocument.WriteString(" <OriginalFile>OriginalFile</OriginalFile>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <Uri>Uri</Uri>\n")
xmlDocument.WriteString(" </Asset>\n")
xmlDocument.WriteString(" <Asset id=\"4\" position=\"4\" type=\"4\" category=\"4\">\n")
xmlDocument.WriteString(" <OriginalFile>OriginalFile</OriginalFile>\n")
xmlDocument.WriteString(" <Description>Description</Description>\n")
xmlDocument.WriteString(" <Uri>Uri</Uri>\n")
xmlDocument.WriteString(" </Asset>\n")
xmlDocument.WriteString(" </Assets>\n")
xmlDocument.WriteString(" <Synonyms>\n")
xmlDocument.WriteString(" <Synonym>Synonym 0</Synonym>\n")
xmlDocument.WriteString(" <Synonym>Synonym 1</Synonym>\n")
xmlDocument.WriteString(" <Synonym>Synonym 2</Synonym>\n")
xmlDocument.WriteString(" <Synonym>Synonym 3</Synonym>\n")
xmlDocument.WriteString(" <Synonym>Synonym 4</Synonym>\n")
xmlDocument.WriteString(" </Synonyms>\n")
xmlDocument.WriteString("</Node>\n")
}
然后,我就有了实际解析这个 XML 文档的函数。
// PRIVATE: parseXML parses an io.Reader instance into a 'Node' struct.
func parseXML(
xmlReader io.Reader) {
xmlDecoder := xml.NewDecoder(xmlReader)
for {
token, _ := xmlDecoder.Token()
if token == nil {
break
}
switch element := token.(type) {
case xml.StartElement:
if element.Name.Local == "Node" {
decodeNodeElement(xmlDecoder, &element)
}
}
}
}
// PRIVATE: decodeNodeElement decodes a '<Node />' element into a 'Node' struct.
func decodeNodeElement(
xmlDecoder *xml.Decoder,
element *xml.StartElement) {
node := new(model.Node)
xmlDecoder.DecodeElement(node, element)
}
然后,我有执行基准测试的功能:
// PRIVATE: runBenchmarkParseXML performs a benchmark that parses an XML document that contains the given number of
// '<Node />' element.
func runBenchmarkParseXML(
nodeCount int,
benchmark *testing.B) {
// Arrange.
xmlReader := createSampleXMLReader(nodeCount)
// Act.
for i := 0; i < benchmark.N; i++ {
parseXML(xmlReader)
}
}
然后我有 5 个执行基准测试的函数。这些用于 XML 文档中的 1、10、100、1000 和 10000 个元素。
func BenchmarkParseXML1(benchmark *testing.B) { runBenchmarkParseXML(1, benchmark) }
func BenchmarkParseXML10(benchmark *testing.B) { runBenchmarkParseXML(10, benchmark) }
func BenchmarkParseXML100(benchmark *testing.B) { runBenchmarkParseXML(100, benchmark) }
func BenchmarkParseXML1000(benchmark *testing.B) { runBenchmarkParseXML(1000, benchmark) }
func BenchmarkParseXML10000(benchmark *testing.B) { runBenchmarkParseXML(10000, benchmark) }
当我运行这个基准测试时,我看到以下输出:
BenchmarkParseXML1-4 5000000 226 ns/op
BenchmarkParseXML10-4 10000000 230 ns/op
BenchmarkParseXML100-4 5000000 226 ns/op
BenchmarkParseXML1000-4 5000000 254 ns/op
BenchmarkParseXML10000-4 1 1690998100 ns/op
解析一个包含 10.000 个元素的 XML 文件的基准测试怎么可能存在如此大的差异,而其余的基准测试时间是稳定的?
我的基准是新的还是 ParseXML 方法的实现不正确。
编辑:节点结构
// Node represents a '<Node />' element in the XML document.
type Node struct {
ID int `xml:"id,attr"`
Position int `xml:"position,attr"`
Depth int `xml:"depth,attr"`
Parent string `xml:"parent,attr"`
Name string `xml:"Name"`
Description string `xml:"Description"`
OwnInformation struct {
Title string `xml:"Title"`
Description string `xml:"Description"`
} `xml:"OwnInformation"`
Assets []struct {
ID string `xml:"id,attr"`
Position int `xml:"position,attr"`
Type string `xml:"type,attr"`
Category int `xml:"category,attr"`
OriginalFile string `xml:"OriginalFile"`
Description string `xml:"Description"`
URI string `xml:"Uri"`
} `xml:"Assets>Asset"`
Synonyms []string `xml:"Synonyms>Synonym"`
}
提前感谢您的指导。
最佳答案
您的基准测试有缺陷。您将输入增加 10 倍,但持续时间始终保持大致恒定这一事实应该让您对这个基准非常怀疑。
您每次都在重复使用同一个阅读器。只有每个基准测试的第一次迭代才会真正做任何事情。进一步的调用将从已经处于 EOF 的阅读器读取。
更改您的设置,使其返回一个字节 slice 并为每次迭代构造一个新的读取器。这将产生预期的结果:
func createSampleXMLDoc(nodeElementCount int) []byte {
xmlContents := &bytes.Buffer{}
xmlContents.WriteString("<ROOT>\n")
for i := 0; i < nodeElementCount; i++ {
appendNodeXMLElement(xmlContents)
}
xmlContents.WriteString("</ROOT>")
return xmlContents.Bytes()
}
func runBenchmarkParseXML(nodeCount int, b *testing.B) {
doc := createSampleXMLDoc(nodeCount)
for i := 0; i < b.N; i++ {
xmlReader := bytes.NewReader(doc)
parseXML(xmlReader)
}
}
在我的机器上的结果(正如预期的那样,将输入增加 10 倍会使时间增加 10 倍):
$ go test -benchtime=5s -bench .
goos: linux
goarch: amd64
BenchmarkParseXML1-8 100000 115978 ns/op
BenchmarkParseXML10-8 10000 1147605 ns/op
BenchmarkParseXML100-8 1000 11586980 ns/op
BenchmarkParseXML1000-8 50 124199120 ns/op
BenchmarkParseXML10000-8 5 1003668966 ns/op
-benchtime=5s
将每个基准测试的默认时间从一秒增加到五秒。在最后一种情况下,一秒钟不足以进行多次迭代,从而产生不可靠的结果。这也是为什么在您的原始基准测试中看到大量数字的原因。第一次迭代很慢,但之后的每一次迭代都会立即返回,因此平均时间会急剧下降。顺便说一句,在基准测试中只看到一次迭代是另一个危险信号。实际上,即使是五次迭代对于可靠的测量来说仍然很低。
故事的寓意:检查你的错误!
关于xml - 运行基准测试时 XML 解析缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54568832/
SQLite、Content provider 和 Shared Preference 之间的所有已知区别。 但我想知道什么时候需要根据情况使用 SQLite 或 Content Provider 或
警告:我正在使用一个我无法完全控制的后端,所以我正在努力解决 Backbone 中的一些注意事项,这些注意事项可能在其他地方更好地解决......不幸的是,我别无选择,只能在这里处理它们! 所以,我的
我一整天都在挣扎。我的预输入搜索表达式与远程 json 数据完美配合。但是当我尝试使用相同的 json 数据作为预取数据时,建议为空。点击第一个标志后,我收到预定义消息“无法找到任何内容...”,结果
我正在制作一个模拟 NHL 选秀彩票的程序,其中屏幕右侧应该有一个 JTextField,并且在左侧绘制弹跳的选秀球。我创建了一个名为 Ball 的类,它实现了 Runnable,并在我的主 Draf
这个问题已经有答案了: How can I calculate a time span in Java and format the output? (18 个回答) 已关闭 9 年前。 这是我的代码
我有一个 ASP.NET Web API 应用程序在我的本地 IIS 实例上运行。 Web 应用程序配置有 CORS。我调用的 Web API 方法类似于: [POST("/API/{foo}/{ba
我将用户输入的时间和日期作为: DatePicker dp = (DatePicker) findViewById(R.id.datePicker); TimePicker tp = (TimePic
放宽“邻居”的标准是否足够,或者是否有其他标准行动可以采取? 最佳答案 如果所有相邻解决方案都是 Tabu,则听起来您的 Tabu 列表的大小太长或您的释放策略太严格。一个好的 Tabu 列表长度是
我正在阅读来自 cppreference 的代码示例: #include #include #include #include template void print_queue(T& q)
我快疯了,我试图理解工具提示的行为,但没有成功。 1. 第一个问题是当我尝试通过插件(按钮 1)在点击事件中使用它时 -> 如果您转到 Fiddle,您会在“内容”内看到该函数' 每次点击都会调用该属
我在功能组件中有以下代码: const [ folder, setFolder ] = useState([]); const folderData = useContext(FolderContex
我在使用预签名网址和 AFNetworking 3.0 从 S3 获取图像时遇到问题。我可以使用 NSMutableURLRequest 和 NSURLSession 获取图像,但是当我使用 AFHT
我正在使用 Oracle ojdbc 12 和 Java 8 处理 Oracle UCP 管理器的问题。当 UCP 池启动失败时,我希望关闭它创建的连接。 当池初始化期间遇到 ORA-02391:超过
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve
引用这个plunker: https://plnkr.co/edit/GWsbdDWVvBYNMqyxzlLY?p=preview 我在 styles.css 文件和 src/app.ts 文件中指定
为什么我的条形这么细?我尝试将宽度设置为 1,它们变得非常厚。我不知道还能尝试什么。默认厚度为 0.8,这是应该的样子吗? import matplotlib.pyplot as plt import
当我编写时,查询按预期执行: SELECT id, day2.count - day1.count AS diff FROM day1 NATURAL JOIN day2; 但我真正想要的是右连接。当
我有以下时间数据: 0 08/01/16 13:07:46,335437 1 18/02/16 08:40:40,565575 2 14/01/16 22:2
一些背景知识 -我的 NodeJS 服务器在端口 3001 上运行,我的 React 应用程序在端口 3000 上运行。我在 React 应用程序 package.json 中设置了一个代理来代理对端
我面临着一个愚蠢的问题。我试图在我的 Angular 应用程序中延迟加载我的图像,我已经尝试过这个2: 但是他们都设置了 src attr 而不是 data-src,我在这里遗漏了什么吗?保留 d
我是一名优秀的程序员,十分优秀!