gpt4 book ai didi

python - 如何使用 python 从非结构化 HTML 创建结构化数组

转载 作者:行者123 更新时间:2023-11-30 23:12:26 25 4
gpt4 key购买 nike

好的,我有这个 HTML 文件,其中包含许多 div 标签和表标签的数据。 div 标签包含与其他 div 标签部分相关的 id,但每个 div 标签部分之后是一个包含我需要的数据的表部分。我希望能够获取这个 HTML 文件并创建数组、列表、字典等......某种结构,以便我可以轻松搜索相关信息并从中提取我需要的内容。

HTML 文件内容的示例。

<DIV class="info">      <A name="bc968f9fa2db71455f50e0c13ce50e871fS7f0e"
id="bc968f9fa2db71455f50e0c13ce50e871fS7f0e">
<B>WORKSPACE_WEBAPP</B>&nbsp;(WORKSPACE_WEBAPP)<BR/> <B>Object ID:
</B>&nbsp;&nbsp;bc968f9fa2db71455f50e0c13ce50e871fS7f0e<BR/> <B>Last
Modified Date : </B>&nbsp;&nbsp;26-Sep-13 10:41:13<BR/>
<B>Properties:</B><BR/> </DIV>

<TABLE class="properties"> <TR class="header"><TH>Property
Name</TH><TH>Property Value</TH></TR>
<TR><TD>serverName</TD><TD>FoundationServices0</TD></TR>
<TR><TD>context</TD><TD>workspace</TD></TR>
<TR><TD>isCompact</TD><TD>false</TD></TR>
<TR><TD>AppServer</TD><TD>WebLogic 10</TD></TR>
<TR><TD>port</TD><TD>28080</TD></TR>
<TR><TD>maintVersion</TD><TD>11.1.2.2.0.66</TD></TR>
<TR><TD>version</TD><TD>11.1.2.0</TD></TR>
<TR><TD>SSL_Port</TD><TD>28443</TD></TR>
<TR><TD>instance_home</TD><TD>/essdev1/app/oracle/Middleware/user_projects/epmsystem1</TD></TR>
<TR><TD>configureBPMUIStaticContent</TD><TD>true</TD></TR>
<TR><TD>validationContext</TD><TD>workspace/status</TD></TR> </TABLE>

因此,我希望能够为这些 div 部分创建一个数组,并且还包含该数组中表中区域的属性。我就是不知道什么是最好的方法。我知道答案可能包含使用 BeautifulSoup 来解析标签。由于没有其他方法将表部分与 div 部分相关联,我相信我必须一次加载一行文件并以这种方式处理它,除非有更简单的方法?任何想法都会非常有帮助。

最佳答案

使用BeautifulSoup

基本解决方案是使用连接美化分割。基本思想是将其转换文本分离兴趣部分

from bs4 import BeautifulSoup
soup = BeautifulSoup(''.join(text))
for i in soup.prettify().split('<!--Persontype-->')[1].split('<strong>'):
print '<strong>' + ''.join(i)



text= '''
<div class="clearfix">
<!--# of ppl associated with place-->
This is some kind of buzzword:<br />
<br />
<!--Persontype-->
<strong>Hey</strong> All <br />
Something text here <br />
About Something
<br />
Mobile Version <br />
<br />
<strong>MObile</strong> Nokia <br />
Try to implement here <br />
Simple
<br />
hey Thanks <br />


O/P is :

关于python - 如何使用 python 从非结构化 HTML 创建结构化数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29825825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com