gpt4 book ai didi

python - 不使用 RegEx、BeautifulSoup、lXml 等查找两个单词之间的内容

转载 作者:行者123 更新时间:2023-12-01 06:19:37 24 4
gpt4 key购买 nike

如何找出两个单词或两组随机字符之间的内容?

抓取的页面不保证只是 Html,重要数据可以位于 JavaScript block 内。所以,我无法删除 JavaScript。

考虑一下:

<html>
<body>
<div>StartYYYY "Extract HTML", ENDYYYY

</body>

Some Java Scripts code STARTXXXX "Extract JS Code" ENDXXXX.

</html>

如您所见,html 标记可能不完整。我可以获取该页面,然后不用担心任何事情,我想找到名为“提取名称”和“在 JavaScript 中提取此处的数据”的内容。

我正在寻找的是Python:

像这样:

data = FindBetweenText(UniqueTextBeforeContent, UniqueTextAfterContent, page)

下载页面的位置和数据将包含我正在查找的文本。我宁愿远离 regEx,因为某些情况对于 RegEx 来说可能过于复杂。

最佳答案

如果您确定您的标记是唯一的,请执行以下操作

s="""
<html>
<body>
<div>StartYYYY "Extract HTML", ENDYYYY

</body>

Some Java Scripts code STARTXXXX "Extract JS Code" ENDXXXX.

</html>
"""

def FindBetweenText(startMarker, endMarker, text):
startPos = text.find(startMarker)
if startPos < 0: return
endPos = text.find(endMarker)
if endPos < 0: return

return text[startPos+len(startMarker):endPos]

print FindBetweenText('STARTXXXX', 'ENDXXXX', s)

关于python - 不使用 RegEx、BeautifulSoup、lXml 等查找两个单词之间的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1116172/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com