gpt4 book ai didi

python - 在 python 中使用 mechanize 去除 html 标签并仅返回文本

转载 作者:行者123 更新时间:2023-12-04 16:22:05 24 4
gpt4 key购买 nike

我编写了一个代码,通过使用 Mechanize 提供搜索词来从网站中提取信息。
结果有html标签和其他细节以及文本。我只需要提取文本。帮助我修改代码

import mechanize
br=mechanize.Browser()
br.set_handle_robots( False )
br.addheaders = [('User-agent', 'Firefox')]
r=br.open("http://www.drugs.com/search-wildcard-phonetic.html")
br.select_form(nr=0)
br.form['searchterm']='panadol'
br.submit()
print br.response().read()

最佳答案

这似乎是同一个问题
Python code to remove HTML tags from a string指向 Strip HTML from strings in Python

复制该问题的最佳答案给出:

我总是使用这个函数来去除 HTML 标签,因为它只需要 Python stdlib:

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)

def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()

关于python - 在 python 中使用 mechanize 去除 html 标签并仅返回文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21971646/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com