gpt4 book ai didi

python - 提取网页上引号内的文本

转载 作者:行者123 更新时间:2023-12-01 07:45:29 25 4
gpt4 key购买 nike

有没有一种简单的方法可以提取网页上引号内的所有文本?简单地将 HTML 代码解析为字符串并不能解决问题。

最佳答案

将 yahoo 链接替换为您想要的任何链接。这将返回双引号之间的所有句子和单词的列表。

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib
import re


def tag_visible(element):
if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
return False
if isinstance(element, Comment):
return False
return True


def text_from_html(body):
soup = BeautifulSoup(body, 'html.parser')
texts = soup.findAll(text=True)
visible_texts = filter(tag_visible, texts)
return u" ".join(t.strip() for t in visible_texts)

html = urllib.urlopen('https://news.yahoo.com/poll-biden-leads-trump-four-165851808.html').read()

alltext = text_from_html(html)
charmap = { 0x201c : u'"',
0x201d : u'"',
0x2018 : u"'",
0x2019 : u"'" }

alltext = alltext.translate(charmap)

final = re.findall(r'"([^"]*)"', alltext)

关于python - 提取网页上引号内的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56482747/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com