gpt4 book ai didi

html - 如何解析和规范化来自不同 HTML 生成器的 HTML?

转载 作者:行者123 更新时间:2023-11-28 04:43:28 31 4
gpt4 key购买 nike

这是 question 的扩展.我正在尝试解析嵌入在 Blogger 博客的 XML 备份中的 HTML 片段,并用 InDesign 标签重新标记它们。

Blogger 并未对其任何帖子的 HTML 进行标准化,并且可以使用 Word、Windows Live Writer、 native Blogger 界面或文本编辑器编写帖子,从而产生大量不同形式的 HTML。有些帖子不标记段落,只使用双 <br> s 在段落之间——其他人使用实际的 <p>标签。

解析这种不标准的标签集合的最佳方法是什么?

此外,每个帖子都不是一个完整的 HTML 文件——只是插入到模板中的片段——这意味着没有要解析的整体 HTML 结构(<html><body></body></html> 等)这对XML/HTML 解析?

以下是一些可能的示例,主要是标准 HTML,缺少段落:

This is a section of a blog post. It has <a href="#">links</a> and lists and stuff. Weee....
<br>
<br>
Here's a list
<br/>
<br />
<ul><li>Item 1</li><li>Item 2</li><ul>
And another paragraph here...
<br>
<br/>
Etc.

Word HTML 看起来像这样 - http://www.timeatlas.com/mos/images/stories/word_html_tags.png

最佳答案

关于html - 如何解析和规范化来自不同 HTML 生成器的 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/982203/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com