gpt4 book ai didi

python - 从一些 HTML 标签中提取文本

转载 作者:行者123 更新时间:2023-12-01 06:21:12 26 4
gpt4 key购买 nike

我正在使用 BeautifulSoup 来抓取职业页面上的职位列表。我在打印我需要的信息时遇到了麻烦。

这是 HTML 的样子

<ul class="list-group">
<li class="list-group-item">
<h4 class="list-group-item-heading">
<a href="http://careers.steelseries.com/apply/3LXwyjYOrb/Customer-Experience-Specialist">
Customer Experience Specialist </a>
</h4>
<ul class="list-inline list-group-item-text">
<li><i class="fa fa-map-marker"></i>Chicago, IL</li>
<li><i class="fa fa-sitemap"></i>Operations</li>
</ul>

我想要它打印出来的是

Customer Experience Specialist
Chicago, IL
Operations
--------------

我尝试过的代码是这样的:

section = soup.find_all('div', class_='col col-xs-7 jobs-list')
for elem in section:
wrappers = elem.find('ul').get_text()
print(wrappers)

但是它的作用是为我打印它,其中包含太多新行和空格,如下所示:

                                        Customer Experience Specialist                                    


Chicago, IL
Operations

请记住,职位名称上方还有大约 4 个空行,“运营”之后还有一个新行

最佳答案

试试这个:

sections = soup.find_all('div', class_='col col-xs-7 jobs-list')
sections = [section for section in sections.split("\n") if section and section != " "]
print("\n".join(sections))

问候!

关于python - 从一些 HTML 标签中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60343273/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com