gpt4 book ai didi

html - 使用 Go 解析 HTML 文件

转载 作者:IT王子 更新时间:2023-10-29 01:55:54 24 4
gpt4 key购买 nike

encoding/xml 是解析此类 HTML 表格文件的最佳库吗?是否存在一些如何解析的示例?

<html><head>
<meta charset="utf-8">

</head>
<body>
<a name="Test1">
<center>
<b>Test 1</b> <table border="0">
<tbody><tr>
<th> Type </th>
<th> Region </th>
</tr>
<tr>
<td> <table border="0">
<thead>
<tr>
<th><b>Type</b></th>
<th> &nbsp; </th>
<th> Count </th>
<th> Percent </th>
</tr>
</thead>
<tbody><tr>
<td> <b>T1</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#ff0000"> 34,314 </td>
<td class="numeric" bgcolor="#ff0000"> 31.648% </td>
</tr>
<tr>
<td> <b>T2</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#bf3f00"> 25,820 </td>
<td class="numeric" bgcolor="#bf3f00"> 23.814% </td>
</tr>
<tr>
<td> <b>T3</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#24da00"> 4,871 </td>
<td class="numeric" bgcolor="#24da00"> 4.493% </td>
</tr>

</tbody></table><br>
</td>
<td> <table border="0">
<thead>
<tr>
<th><b> Type</b></th>
<th> &nbsp; </th>
<th> Count </th>
<th> Percent </th>
</tr>
</thead>
<tbody><tr>
<td> <b>T4</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#ff0000"> 34,314 </td>
<td class="numeric" bgcolor="#ff0000"> 31.648% </td>
</tr>
<tr>
<td> <b>T5</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#53ab00"> 11,187 </td>
<td class="numeric" bgcolor="#53ab00"> 10.318% </td>
</tr>
<tr>
<td> <b>T6</b> </td>
<th> &nbsp; </th>
<td class="numeric" bgcolor="#bf3f00"> 25,820 </td>
<td class="numeric" bgcolor="#bf3f00"> 23.814% </td>
</tr>

</tbody></table><br>
</td>
</tr>
</tbody></table>
</center>

</a>
</body></html>

提前谢谢你。

最佳答案

取决于您的 HTML。

严格来说,唯一一种保证被符合规范的 XML 解析器解析的 HTML 是 XHTML。 , 但尽管 XHTML 曾经被认为是 HTML 标准,但它并没有真正起步,现在它被认为已经过时(支持大肆宣传的“HTML5”事物及其周围的所有生态系统)。 HTML 的基本问题是,虽然它看起来像 XML,但它有不同的规则。一个明显的区别是 <br>是一个完全合法的 HTML,但在 XML 中是一个未终止的元素(在后者中,它必须拼写为 <br/> ),并且 there are a lot more differences .

另一方面,您的特定示例对我来说看起来很 XML'ish,因此如果您能保证您的数据虽然是 HTML,但始终是 well-formed XML。同时,你可以只使用encoding/xml包裹。否则去找 go.net/html ,按照@elithrar 的建议,或者找到一些其他包。

关于html - 使用 Go 解析 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20298071/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com