python - 使用 XPath 在使用 python 的 <td> 单元格中获取文本-6ren

python - 使用 XPath 在使用 python 的单元格中获取文本

转载作者：搜寻专家更新时间：2023-10-31 22:54:29

24

4

我目前正在学习如何使用 XPath 从 HTML 文档中提取信息。我使用的是 python，在获取诸如网页标题之类的值时没有遇到任何问题，但是当我尝试获取表格中特定单元格的文本时，我只会返回一个空值。

这是我的代码，我使用 chrome 复制了我想从中获取值的表格单元格的 XPath。

from lxml import html
import requests

page = requests.get('https://en.wikipedia.org/wiki/List_of_Olympic_Games_host_cities')
tree = html.fromstring(page.content)

#This will get the cell text:
location = tree.xpath('//*[@id="mw-content-text"]/div/table[1]/tbody/tr[1]/td[3]/text()')

print('Location: ', location)

最佳答案

您不应在 XPath 表达式中使用 tbody 标记，因为它可能会被开发人员忽略并在页面呈现时被浏览器添加。您可以尝试以下 XPath 来获取所需的值:

location = tree.xpath('//*[@id="mw-content-text"]/div/table[1]//tr[not(parent::thead)]/td[3]/text()')

输出是

Location:  ['Europe', 'Europe', 'North America', 'Europe', 'Europe', 'Europe', '
Europe', 'Europe', 'Europe', 'Europe', 'Europe', 'North America', 'North America
', 'Europe', 'Europe', 'Asia', '\nEurope', 'Asia', '\nEurope', 'Europe', 'Europe
', 'Europe', 'Europe', 'Europe', 'Europe', 'Europe', 'Oceania', '\nEurope', 'Nor
th America', 'Europe', 'Europe', 'Asia', 'Europe', 'North America', 'Asia', 'Eur
ope', 'Europe', 'North America', 'North America', 'Europe', 'Europe', 'North Ame
rica', 'North America', 'Asia', 'Europe', 'Europe', 'Europe', 'North America', '
Asia', 'Oceania', 'North America', 'Europe', 'Europe', 'Asia', 'North America',
'Europe', 'Europe', 'South America', 'Asia', 'Asia', 'Asia', 'Europe', 'North Am
erica']

关于python - 使用 XPath 在使用 python 的 <td> 单元格中获取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48872972/

24

4

0

文章推荐： ios - PDFKit/PDFView 禁用与表单注释的交互

文章推荐： node.js - 使用 Nightwatch.js 启动 Selenium 服务器

文章推荐： php - php 中的 OAuth 2.0 使用 curl

ruby - 如何要求正确版本的测试/单元
我试图要求 test/unit 的新版本(即不是与 ruby 捆绑的版本) .根据 instructions我用 gem i test-unit 安装它.但是现在当我需要 test/unit我似乎
Systemd 单元，使用外部脚本检查状态
简短版本是: 我有一个 systemd 单元，我想在调用时检查脚本的返回代码: systemctl status service.service 长版本:我有一个 lsb init 脚本正是这样做的，
c# - 单元/集成测试中的反射问题
我正在使用反射动态创建一个类的实例，这工作正常，除非尝试通过单元测试执行此操作 - 我使用的是 MS 测试框架。我收到熟悉的错误:“无法加载文件或程序集‘Assy’或其依赖项之一。系统找不到指定的文
javascript - (单元)测试网站界面的方法
我想知道测试网站“界面功能”的最佳实践是什么。我对哪些方法可用于测试界面和动态生成的内容感兴趣。特别是，我很难弄清楚是否可以为需要用户交互的操作创建自动化测试，或者这是否只是浪费时间，我应该让一些
python - (单元)测试python信号处理程序
我有一个简单的 Python 服务，其中有一个无限执行某些操作的循环。在各种信号上，sys.exit(0) 被调用，这导致 SystemExit 被引发，然后如果可以的话应该进行一些清理。在测试中，
c# - HoughLinesP参数!单元？
我正在使用 OpenCV 2.4.2 这是 OpenCV 文档中的引文 C++: void HoughLinesP(InputArray image, OutputArray lines, doubl
c# - 单元/集成测试和恢复数据库
忙于 C# 中的自动化测试用例，我们需要在每次测试后恢复数据库快照。问题是，当运行多个测试时它会失败，因为“其他用户正在使用数据库时无法更改数据库状态。” 我们使用 SqlConnection.Cle
C# 单元(文件范围)命名空间
我阅读了 C# 规范并用谷歌搜索了它，但一无所获。我 99% 肯定 C# 中没有像单元命名空间指令这样的功能，但问题是:为什么？是否有惯用或技术原因？这很方便，尤其是当我们的大部分文件都由单个命名
ios - iOS 单元/应用程序测试目标如何与其宿主应用程序中的类进行链接？
我目前正在尝试向我的应用程序(一个非常老的项目......评论说 iOS 2.0)添加单元测试(精确的应用程序测试)并且总是偶然发现 undefined symbols for architectur
delphi - 如何向项目添加新的(自制)单元
我正在使用Delphi 7，并且有一个新单元要在我的项目中使用。我已经编译了新的。当我尝试通过将其添加到uses子句在项目中使用此单元时，出现错误，提示未找到.dcu文件。我还尝试将文件的完整路径放在
unit-testing - 单元/集成测试nHibenrate查询
场景：我需要编写一个复杂的nHibernate查询，该查询将返回预计的DTO，但是我想使用TDD方法。该方法如下所示： public PrintDTO GetUsersForPrinting(int
slideshow - 以幻灯片模式运行 Jupyter 单元
您可以通过运行以下命令在事件 html 设置中显示 Jupyter 笔记本: $ jupyter nbconvert untitled.ipynb --to slides --post serve 有
adsense - 如何在一个页面上使用多个 AdSense 单元？
如何在一个网站上拥有多个 AdSense 单元？ Google 提供的唯一代码是按单位计算的。 (adsbygoogle = window.adsbygoogle || []).push({})
unit-testing - 单元/集成测试中文件系统依赖关系的最佳实践
我刚刚开始为大量代码编写测试。有很多类依赖于文件系统，即读取 CSV 文件、读/写配置文件等。当前测试文件存储在项目(这是一个 Maven2 项目)的 test 目录中，但由于多种原因该目录并不总是
unit-testing - (单元)测试驱动开发
我对 TDD 还很陌生，在单元测试方面也不是很老练，所以才有这个问题。我有这个用 PHP 编写的遗留函数 function foo(){ x = bar(); y = baz();
java - 垂直排列 JCheckBox 单元
我创建了一个程序，在 Swing 窗口的一侧显示结果过滤选项，但默认情况下它们水平相邻显示，这浪费了我在 BorderLayout 的西侧分配的空间。我可以在构造函数或添加语句中传递任何内容来将它们堆
c# - 如何(单元)测试弱引用列表的内存管理功能？
标题不好的借口:如果有人能更好地描述它，请做。我有一个 WeakList类，它“基本上”是一个 List> (虽然不是字面意义上的派生自列表，但它应该对用户完全透明)。现在的基本思想是“如果引用的
ios - 如何继续添加多个原型(prototype)单元
我正在尝试在 UITableView 上添加两个原型(prototype)单元。但是，我不知道如何验证是否能够为每个原型(prototype)“返回”正确的单元格。你们能帮我一下吗？ func ta
swift - 如何重新加载经过编辑的更改的 CloudKit 单元
我正在使用 CloudKit 作为数据库创建一个简单的待办事项列表应用程序。目前我可以添加和删除对象，但对编辑对象感到困惑。编辑项目 Controller protocol EditItemCont
python - 涉及序列的任务需要多少个 RNN 单元？
我正在针对以下任务训练 RNN:给定一个包含 30 个单词的序列，然后将该序列分类为二进制类。在我的网络中拥有超过 30 个单元(LSTM、GRU 或普通 RNN)有好处吗？我在网上看到过很多例子，

首页

博学

6Ren·AI

商城

python - 使用 XPath 在使用 python 的单元格中获取文本

首页

博学

6Ren·AI

商城

python - 使用 XPath 在使用 python 的 单元格中获取文本

python - 使用 XPath 在使用 python 的单元格中获取文本