xml - 如何使用 Xpath 从 BoxOfficeMojo 中提取电影标题-6ren

xml - 如何使用 Xpath 从 BoxOfficeMojo 中提取电影标题

转载作者：数据小太阳更新时间：2023-10-29 03:00:04

26

4

所以我尝试使用 ImportXML 函数在 Google 表格中导入一个电影标题，这需要我给它一个 Xpath 查询。问题是 BoxOfficeMojo，它的结构非常奇怪，这让我无法弄清楚如何查询。

在 Google 表格中一切正常，但我无法生成正确的 Xpath 查询，当为 ImportXML 单元格提供链接时，它只给我电影的标题。

这是我必须处理的:

给定电影的链接(例如 https://www.boxofficemojo.com/movies/?page=main&id=ateam.htm)
Google 表格中的 ImportXML 语句( https://support.google.com/docs/answer/3093342?hl=en )
一个 Xpath 查询(这就是它变得棘手的地方)

我尝试了多种不同的查询，包括在我检查网站时 Chrome 会为我生成的查询，但 BoxOfficeMojo 的结构很奇怪，这意味着我无法使用任何逻辑来创建我的查询。我已经研究了几个小时了，我最接近获得正确结果的是这个查询:

//*[//table[@border = '0']]/td/font/b

这给了我这个结果:

The A-Team

4

我这辈子都想不通如何过滤掉电影的标题(在本例中为“The A-Team”)。

为了更好地衡量，当我检查网站时，Chrome 建议将其作为 Xpath:

//*[@id="body"]/table[2]/tbody/tr/td/table[1]/tbody/tr/td[2]/font/b

上面的查询不起作用，只是抛出一个错误，就好像查询没有返回任何东西一样......

可能的解决方案我见过一些人成功地进行了 Xpath 查询，他们在其中搜索某个短语，并返回该短语后面的内容(看这个:python: xpath returns empty list from boxofficemojo.com)。

但是，我似乎无法弄清楚如何搜索电影的标题，因为它没有被任何文本包围。

抓取像这个标题这样简单的东西的全部意义在于，BoxOfficeMojo 上的标题全年都在变化，我需要准确的标题才能抓取和比较 Google 表格中的数据。

希望我已经为人群中的 Xpath 向导提供了足够的信息，以便能够为我提出建议。

提前致谢!

最佳答案

我为几部电影尝试了这个 xpaths 并且工作正常

//font[@face="Verdana" and @size="6"]/b

关于xml - 如何使用 Xpath 从 BoxOfficeMojo 中提取电影标题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53264614/

26

4

0

JavaScript 为 boxofficemojo.com 上的单部电影带来收入
boxofficemojo.com 在此处有一个页面: http://www.boxofficemojo.com/about/data.htm 讨论他们的数据源。我正在尝试获取给定电影的票房数字，以便
python: xpath 从 boxofficemojo.com 返回空列表
我正在尝试使用下面的代码从 BoxOfficeMojo.com 上每部电影的页面中抓取特定数据。不幸的是 xpath 返回一个空列表。一些帖子建议从 xpath 中删除 tbody，但这也会返回一个空
xml - 如何使用 Xpath 从 BoxOfficeMojo 中提取电影标题
所以我尝试使用 ImportXML 函数在 Google 表格中导入一个电影标题，这需要我给它一个 Xpath 查询。问题是 BoxOfficeMojo，它的结构非常奇怪，这让我无法弄清楚如何查询。