Python:打印文本元素不起作用-6ren

Python:打印文本元素不起作用

转载作者：太空宇宙更新时间：2023-11-03 18:00:59

25

4

我正在尝试使用 python 学习抓取，并且 python 的新用户只是按照在线教程学习。如视频所示，打印命令不起作用。下面是完整的代码。

import requests
from bs4 import BeautifulSoup

url = "http://www.yellowpages.com/search?search_terms=coffee&geo_location_terms=Los+Angeles%2C+CA"

r = requests.get(url)

soup = BeautifulSoup(r.content)

g_data = soup.find_all("div", {"class": "info"})
for item in g_data:
    print (item.text)

for item in g_data:
    print (item.contents[0].text)
    print (item.contents[1].text)

#Print text elements (**The command below does not work!!!!**)
for item in g_data:
    print (item.contents.find_all("a", {"class": "business-name"}).text)

最佳答案

解析嵌套html使用 BeautifulSoup 需要一些练习，但是一旦您了解了它的工作原理，一切都会非常整洁。

有许多小缺陷会阻止您的代码正常工作。我不会假装考虑到所有这些，但我们可以从一个逐步的示例开始，希望这能让您更好地理解。

例如，您不能这样做:

item.contents.find_all("a")

因为item.contents不是 BeautifulSoup 对象。这是一个基本的Python list BeautifulSoup 在 item 中发现的内容。为了继续在item中搜索，您必须使用 find_all 查询对象本身。因此，您可以这样做:

for item in g_data:
    print(item.find_all("a", {"class": "business-name"}).text)

但它仍然不正确。因为两件事:

find_all 的结果是 list的objects ，其中没有 text方法
无论如何，BeautifulSoup 对象没有 text方法。但他们有一个contents方法

这个contents方法返回在标签内找到的字符串列表。因此，您必须执行以下操作:

for item in g_data:
    links = item.find_all("a", {"class": "business-name"})
    links_contents = [ link.contents[0] for link in links ]
    print("\n".join(links_contents))

如果其余部分正确(我不确定)，上面的代码会给你类似的东西:

Content of my first link in the first item
Content of my second link in the first item
Content of my first link in the second item
Content of my second link in the second item
... and so forth

关于Python:打印文本元素不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27677769/

25

4

0

文章推荐： python - 使用 strftime 的 sqlite 查询始终返回 None

文章推荐： c# - 数据绑定(bind) WPF 列表框？

文章推荐： python - appcfg.py upload_data 在 Windows 上忽略 --oauth2 选项

文章推荐： c# - 使用 C# 使用字符数组修剪字符串

javascript - 元素 = $(元素);对象预期错误？
在开发中的网页上，我在 IE 上遇到此错误 element = $(element); 此代码位于prototype.js 预期对象如何消除此错误。更新: 现场也使用了 jQuery。最佳答
arrays - 如果元素本身是数组，合并两个数组(元素 + 元素)的最佳方法是什么
我有两个大小相同的嵌套数组: Array1 =[[1, 2], [], [2, 3]] Array2= [[1, 4], [8, 11], [3, 6]] 我需要将它们合并到一个数组中，如下所示: A
jQuery 不适用于
元素，但不适用于元素
我有一些 jQuery 代码，当单击具有特定 ID 的项目时运行。当 ID 是的一部分时，它就可以工作。元素，但当它位于中时则不然元素。为什么会这样呢？我想使用 an，因为如果用户关闭了 Ja
html - 如何制作 flex 元素 block 元素？
Flex-box 规范 3声明 flex 元素不是 block 容器: A flex item establishes a new formatting context for its content
javascript - jquery 在有序堆栈中添加 not-in-dom 元素(in-dom 元素)
我遇到了一个意想不到的问题。 HTML JS $(function() { var $divs = $('.myDiv'); // create new div not in
javascript - 制作
元素 'active' 而不是元素
我使用 Bootstrap 和 Ember.js 得到了一个无序列表。每个列表项都是一个显示新帖子的链接，每当您单击该链接时，Ember 都会添加类 active默认情况下。我正在使用 Bootstr
javascript - 循环遍历 DOM 元素，包括 span 元素
我正在尝试让一个函数正常工作，但运气不佳，所以我想向 Stackoverflow 智囊团提出一个新手问题! 基本上，我有一个表单，并且循环遍历所有元素以查看是否存在自定义数据属性。如果存在，则保持该元
arrays - 是否有内置函数来映射非 nil 元素，并删除数组的 nil 元素？
我想映射一个可选数组，删除那些 nil 值，并使用另一个函数映射非 nil 值。我知道我可以通过使用 compactMap 然后使用常规 map 来实现这一点，但我只想遍历数组一次。我为此实现了一
jquery - 定位 li 元素，除非前面有非 li 元素
我如何定位 li 元素，除非它们出现在之后元素？换句话说，我想针对步骤而不是注释。我尝试向 OL 添加一个我想从选择中排除的类，但我想出的代码不起作用。 (顺便说一句，重构 html 不是一种选
asp.net - 元素 > system.webServer' 有无效的子元素 > 元素 'rewrite'
Warning 1 The element 'system.webServer' has invalid child element 'rewrite'. List of possible eleme
JavaScript 从非结束节点 HTML 元素(例如 LI 元素)获取文本值
我正在尝试编写一个脚本，该脚本将遍历 HTML 源并创建 DOM 的 JSON 文件，然后使用 d3.js 在 TreeView 中显示该文件。我遇到的问题是不仅希望显示元素(TITLE、P、LI 等
jQuery SlideUp 元素 A 如果可见，则 SlideDown 元素 B
我有以下 HTML 表单:- Option 1 Option 2
javascript - 选择 HTML 元素 Jquery 之后的下一个 span 元素
我试图在选定的 HTML 元素之后选择下一个具有类名 slider-value 的 span 元素。我尝试了多种解决方案，但没有一个有效。我可以通过 id 选择它，但我不希望那样做使代码冗余。 $(
javascript - innerHTML 适用于 body 元素，但不适用于 p 元素
如果电子邮件地址无效，我想在屏幕上显示一条消息“请输入有效的电子邮件地址”。 body 元素的innerHTML 语句工作正常，但我用于p 元素的innerHTML 语句不起作用。有一次，当我测试它
javascript - jQuery 显示隐藏的 li 元素，然后隐藏可见的 li 元素
以下 jQuery 代码调用 ul 元素，查找元素内的前三个 li 列表项，并隐藏剩余的 li 项目。然后，它附加一个 li 元素，其中显示“显示更多...”，并且在单击时显示之前隐藏的列表项。 (
html - 如何显示一个 h1 元素，旁边有一个内联元素，下面有一个 p 元素？
我问了a question早些时候关于将编辑/删除链接与 h1 元素内联的最佳方法。我能够通过给出的答案实现这一点，但我现在有额外的要求，我需要在 h1 下方显示一个段落并编辑/删除链接。到目前为止
knockout.js foreach 在表中重复 td 元素，但不重复 tr 元素
我使用 MVC 4 和 knockout.js 库版本 2.1.0 显示从服务器检索到的大量文件的表中的以下摘录。 0)"> 正在正确检索数据，
reactjs - 如何在 React 组件中定位 DOM 元素，或者应该避免一起定位 DOM 元素？
我创建了一个脚本，该脚本在鼠标悬停在父容器上时激活，并且应该将其子元素移离鼠标。我目前已经让它工作了，但是代码的某些部分似乎与 REACT 代码应该是什么样子相矛盾。特别是两个部分。我在渲染函数中使
javascript - 断点不适用于 Button 或 div 元素，但适用于 li 元素
我是 JS 新手，正在尝试理解项目 https://github.com/tastejs/todomvc 的代码请参阅屏幕截图，我尝试对 button X 以及其父元素 div 设置断点，但在这两种
html - 检查哪些样式应用于 MVC 5 元素 View 中的 HTML 元素
例如，假设有一个带有奇特颜色的标记: Something written here 使用 Visual Studio 2017 和 MVC 5 元素，有没有办法检查和定位当前应用了哪些样式，以及负责它

首页

博学

6Ren·AI

商城

Python:打印文本元素不起作用