python - Python 前标签之间的解析-6ren

python - Python 前标签之间的解析

转载作者：行者123 更新时间：2023-11-30 23:21:23

25

4

我正在尝试使用此代码使用 Python 来解析 PRE 标签

s = br.open(base_url+str(string))
u = br.geturl()
seq = br.open(u)
blat = BeautifulSoup(seq)    
for res in blat.find('pre').findChildren():
        seq = res.string
        print seq

来自以下 HTML 源代码:

<PRE><TT>
<span style='color:#22CCEE;'>T</span><span style='color:#3300FF;'>AAAAGATGA</span> <span style='color:#3300FF;'>AGTTTCTATC</span> <span style='color:#3300FF;'>ATCCAAA</span>aa<span style='color:#3300FF;'>A</span> <span style='color:#3300FF;'>TGGGCTACAG</span> <span style='color:#3300FF;'>AAAC</span><span style='color:#22CCEE;'>C</span></TT></PRE>
<HR ALIGN="CENTER"><H4><A NAME=genomic></A>Genomic chr17 (reverse strand):</H4>
<PRE><TT>
tacatttttc tctaactgca aacataatgt tttcccttgt attttacaga  41256278
tgcaaacagc tataattttg caaaaaagga aaataactct cctgaacatc  41256228
<A NAME=1></A><span style='color:#22CCEE;'>T</span><span style='color:#3300FF;'>AAAAGATGA</span> <span style='color:#3300FF;'>AGTTTCTATC</span> <span style='color:#3300FF;'>ATCCAAA</span>gt<span style='color:#3300FF;'>A</span> <span style='color:#3300FF;'>TGGGCTACAG</span> <span style='color:#3300FF;'>AAAC</span><span style='color:#22CCEE;'>C</span>gtgcc  41256178
aaaagacttc tacagagtga acccgaaaat ccttccttgg taaaaccatt  41256128
tgttttcttc ttcttcttct tcttcttttc tttttttttt ctttt</TT></PRE>
<HR ALIGN="CENTER"><H4><A NAME=ali></A>Side by Side Alignment</H4>
<PRE><TT>
00000001 taaaagatgaagtttctatcatccaaaaaatgggctacagaaacc 00000045
<<<<<<<< |||||||||||||||||||||||||||  |||||||||||||||| <<<<<<<<
41256227 taaaagatgaagtttctatcatccaaagtatgggctacagaaacc 41256183

</TT></PRE>

当我想解析最后一个 PRE 标签元素时，它给了我第一个 PRE 标签元素。我将不胜感激任何实现这一目标的建议。我希望输出如下:

00000001 taaaagatgaagtttctatcatccaaaaaatgggctacagaaacc 00000045
<<<<<<<< |||||||||||||||||||||||||||  |||||||||||||||| <<<<<<<<
41256227 taaaagatgaagtttctatcatccaaagtatgggctacagaaacc 41256183

而我当前的输出是

T
AAAAGATGA
AGTTTCTATC
ATCCAAA
A
TGGGCTACAG
AAAC
C

最佳答案

您可以使用find_all()得到最后的结果:

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('../index.html'), 'html5lib')

pre = soup.find_all('pre')[-1]
print pre.text.strip()

其中 index.html 包含您提供的 html。

它打印:

00000001 taaaagatgaagtttctatcatccaaaaaatgggctacagaaacc 00000045
<<<<<<<< ||||||||||||||||||||||||||| |||||||||||||||| <<<<<<<<
41256227 taaaagatgaagtttctatcatccaaagtatgggctacagaaacc 41256183

<小时/>

另一种选择是依赖之前的 h4 标签来获取适当的 pre:

h4 = soup.select('h4 > a[name="ali"]')[0].parent
print h4.find_next_sibling('pre').text.strip()

关于python - Python 前标签之间的解析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25003802/

25

4

0

文章推荐： python - 更改变量会导致在赋值之前引用

文章推荐： python - 使用 fnmatch 匹配的文件名

文章推荐： python - Kivy 在特定的 Python 版本上工作得更好吗？

文章推荐： python - Python 3.4 中的自定义异常代码和消息

首页

博学

6Ren·AI

商城

python - Python 前标签之间的解析

标签)？
根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？是吗 stackoverflow 或 stackoverflow 谢谢最佳答案根据网络标准，您不能将 block 元素放入内

首页

博学

6Ren·AI

商城

python - Python 前标签之间的解析

标签)？ 根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？ 是吗 stackoverflow 或 stackoverflow 谢谢 最佳答案 根据网络标准，您不能将 block 元素放入内

标签)？
根据 Web 标准，创建带有标题 1 的链接的正确代码是什么？是吗 stackoverflow 或 stackoverflow 谢谢最佳答案根据网络标准，您不能将 block 元素放入内