gpt4 book ai didi

python-2.7 - 使用 BeautifulSoup 从 div 中的所有 p 元素中获取文本

转载 作者:行者123 更新时间:2023-12-02 06:55:13 24 4
gpt4 key购买 nike

我正在尝试获取给定 div 中所有 p 元素的文本(没有标签的内容):

import requests
from bs4 import BeautifulSoup

def getArticle(url):
url = 'http://www.bbc.com/news/business-34421804'
result = requests.get(url)
c = result.content
soup = BeautifulSoup(c)

article = []
article = soup.find("div", {"class":"story-body__inner"}).findAll('p')
for element in article:
article = ''.join(element.findAll(text = True))
return article

问题是它只返回最后一段的内容。但是如果我只使用 print,代码就可以完美运行:

    for element in article:
print ''.join(element.findAll(text = True))
return

我想在别处调用这个函数,所以我需要它来返回文本,而不仅仅是打印它。我搜索了 stackoverflow 并搜索了很多,但没有找到答案,我不明白可能是什么问题。我使用 Python 2.7.9 和 bs4。提前致谢!

最佳答案

以下代码应该可以工作 -

import requests
from bs4 import BeautifulSoup

def getArticle(url):
url = 'http://www.bbc.com/news/business-34421804'
result = requests.get(url)
c = result.content
soup = BeautifulSoup(c)

article_text = ''
article = soup.find("div", {"class":"story-body__inner"}).findAll('p')
for element in article:
article_text += '\n' + ''.join(element.findAll(text = True))
return article_text

您的代码中有几个问题 -

  1. 使用相同的变量名“article”来存储元素和文本。
  2. 应该返回的变量只是被赋值而不是附加,所以只有最后一个值保留在其中。

关于python-2.7 - 使用 BeautifulSoup 从 div 中的所有 p 元素中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32906238/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com