r - 在 Xpath 中同时转义双引号和单引号-6ren

r - 在 Xpath 中同时转义双引号和单引号

转载作者：行者123 更新时间：2023-12-01 19:25:14

25

4

类似于How to deal with single quote in xpath , 我想转义单引号。不同之处在于，我不能排除双引号也可能出现在目标字符串中的可能性。

目标:

使用 Xpath 同时转义双引号和单引号(在 R 中)。目标元素应用作变量，而不是像现有答案之一那样进行硬编码。 (它应该是一个变量，因为我事先不知道内容，它可以有单引号，双引号或两者都有)。

作品:

library(rvest)
library(magrittr)
html <- "<div>1</div><div>Father's son</div>"
target <- "Father's son"
html %>% xml2::read_html() %>% html_nodes(xpath = paste0("//*[contains(text(), \"", target,"\")]"))
{xml_nodeset (1)}
[1] <div>Father's son</div>

不起作用:

html <- "<div>1</div><div>Fat\"her's son</div>"
target <- "Fat\"her's son"
html %>% xml2::read_html() %>% html_nodes(xpath = paste0("//*[contains(text(), \"", target,"\")]"))
{xml_nodeset (0)}
Warning message:
In xpath_search(x$node, x$doc, xpath = xpath, nsMap = ns, num_results = Inf) :
  Invalid expression [1207]

更新

非常欢迎我可以尝试“转换为 R”的非 R 答案。

最佳答案

这里的关键是要认识到，使用 xml2，您可以使用 html 转义字符写回到已解析的 html 中。这个函数就可以解决问题。它比需要的要长，因为我包含了注释和一些类型检查/转换逻辑。

contains_text <- function(node_set, find_this)
{
  # Ensure we have a nodeset
  if(all(class(node_set) == c("xml_document", "xml_node")))
    node_set %<>% xml_children()

  if(class(node_set) != "xml_nodeset")
    stop("contains_text requires an xml_nodeset or xml_document.")

  # Get all leaf nodes
  node_set %<>% xml_nodes(xpath = "//*[not(*)]")

  # HTML escape the target string
  find_this %<>% {gsub("\"", "&quot;", .)}

  # Extract, HTML escape and replace the nodes
  lapply(node_set, function(node) xml_text(node) %<>% {gsub("\"", "&quot;", .)})

  # Now we can define the xpath and extract our target nodes
  xpath <- paste0("//*[contains(text(), \"", find_this, "\")]")
  new_nodes <- html_nodes(node_set, xpath = xpath)

  # Since the underlying xml_document is passed by pointer internally,
  # we should unescape any text to leave it unaltered
  xml_text(node_set) %<>% {gsub("&quot;", "\"", .)}
  return(new_nodes)
}

现在:

library(rvest)
library(xml2)

html %>% xml2::read_html() %>% contains_text(target)
#> {xml_nodeset (1)}
#> [1] <div>Fat"her's son</div>
html %>% xml2::read_html() %>% contains_text(target) %>% xml_text()
#> [1] "Fat\"her's son"

<小时/>

附录

这是一种替代方法，它是@Alejandro 建议的方法的实现，但允许任意目标。它的优点是不影响 xml 文档，并且比上面的方法快一点，但涉及 xml 库应该阻止的字符串解析。它的工作原理是获取目标，在每个 " 和 ' 之后将其拆分，然后将每个片段包含在与其包含的引用类型相反的引用类型中，然后将它们全部粘贴在一起用逗号并将它们插入到 XPath concatenate 函数中。

library(stringr)

safe_xpath <- function(target)
{
  target                                 %<>%
  str_replace_all("\"", "&quot;&break;") %>%
  str_replace_all("'", "&apo;&break;")   %>%
  str_split("&break;")                   %>%
  unlist()

  safe_pieces    <- grep("(&quot;)|(&apo;)", target, invert = TRUE)
  contain_quotes <- grep("&quot;", target)
  contain_apo    <- grep("&apo;", target)

  if(length(safe_pieces) > 0) 
      target[safe_pieces] <- paste0("\"", target[safe_pieces], "\"")

  if(length(contain_quotes) > 0)
  {
    target[contain_quotes] <- paste0("'", target[contain_quotes], "'")
    target[contain_quotes] <- gsub("&quot;", "\"", target[contain_quotes])
  }

  if(length(contain_apo) > 0)
  {
    target[contain_apo] <- paste0("\"", target[contain_apo], "\"")
    target[contain_apo] <- gsub("&apo;", "'", target[contain_apo])
  }

  fragment <- paste0(target, collapse = ",")
  return(paste0("//*[contains(text(),concat(", fragment, "))]"))
}

现在我们可以生成一个有效的 xpath，如下所示:

safe_xpath(target)
#> [1] "//*[contains(text(),concat('Fat\"',\"her'\",\"s son\"))]"

这样

html %>% xml2::read_html() %>% html_nodes(xpath = safe_xpath(target))
#> {xml_nodeset (1)}
#> [1] <div>Fat"her's son</div>

关于r - 在 Xpath 中同时转义双引号和单引号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59364762/

25

4

0

文章推荐： java - NamedParameterJdbcTemplate 返回可选

文章推荐： java - 如何在 TestNG 中对每个类别的优先级进行分组？

文章推荐： regex - 怎么样？在正则表达式中使量词变得懒惰

c# - 双引号 "\""?
我正在尝试在引号内使用引号。它在文本框内工作，但在我需要字符串的地方不工作。例如，第一行代码有效，但我需要将字符串作为变量。 pictureBox1.Image = MediaLib.Get["che
Java 双引号
我需要找到一种方法来检查字符串中的双引号，以便将输出写入 XML 文档，然后在 Word 中打开。我想出了如何查找像 (') 这样的单引号，但是双引号在我的 XML 文档中引发了错误。 pr
c# - 双引号 "\""?
我正在尝试在引号内使用引号。它在文本框内工作，但在我需要字符串的地方不工作。例如，第一行代码有效，但我需要将字符串作为变量。 pictureBox1.Image = MediaLib.Get["che
javascript - 处理字符串中的单/双引号
我定义了一个由动态变量组成的变量 var tempVar = ""; varName输出Black/Blue Mirror + some special character with single a
groovy escape 双引号 $
我在 Jenkins 管道中运行了这个 shell 脚本 def planResults = sh(returnStdout: true, script: "cd $it; PLAN=\$(terra
java - ""(双引号)怎么有方法？
双引号 ("") 怎么可能有一个方法，即使您实际上没有在 String 中声明它。例如: System.out.println("".length()); "" 是否已经是一个对象，但没有在 Stri
java - 双引号 ("") 与整数连接的目的
我刚刚开始阅读“Head First Java”这本书。由于下面代码中没有空格的双引号 ("")，有一个练习让我感到困惑。我想我明白了，但看起来这本书并没有解释它，我想确保我是正确的。下面代码中双引
mysql - 正则表达式不适用于单/双引号
我有一个名为 myfield 的字段，其中包含以下字符串: {'Content-Language': 'en', 'X-Frame-Options': 'SAMEORIGIN', 'X-Generat
Python，用新模式替换所有单引号/双引号
这是一个 nodejs 正则表达式，它将引号替换为 json 解析器接受的新模式。 var someStr = "this string has one single quote ': this st
linux - 双引号/单引号语法
当查询列表并将值放入变量并尝试在另一个脚本中使用该变量时，它确实获得了所需的格式。脚本 1: cilist=$(opr-ci-list.sh -view_name TN_UD_REFRESH_MRE
json - Powershell curl 双引号
我正在尝试在 powershell 中调用 curl 命令并传递一些 JSON 信息。这是我的命令: curl -X POST -u username:password -H "Content-Ty
yaml - 如何删除 Terraform 双引号？
我使用 terraform 创建了一个 YML 管道。它使用脚本任务并在输出中返回 Web 应用程序名称 steps: - script: | [......] terraform
docker - 将空字符串(双引号)参数传递给dockerfile
我的项目由Docker包装，并在2种环境中运行:代理后面的或没有代理的。在这种情况下，我使用php:apache镜像并通过pecl安装ext，因此必须手动设置代理 FROM php:apache R
Clang 格式打破了#include 双引号
我是 Clang-Format 的新手。我使用 ./bin/clang-format -style=google -dump-config > .clang-format 作为我的基础 .clang
java - 正则表达式处理逗号、双引号、引号
我试图在从数据库读取数据后生成 CSV 文件。现在单个数据可以包含逗号、单引号和双引号。请告诉我如何在正则表达式的帮助下处理这种情况。最佳答案您可以为 CSV 文件使用不同的分隔符吗？也许是一个
json - MacVim json 双引号
我全新安装了 janus vim 插件和 macvim。由于某种原因，当我在 macvim 中打开 .json 文件时，.json 文件中的键或值周围没有双引号。当我向下滚动文件的行时，双引号会显示
java - @Value 属性名称中的转义“(双引号)
我的属性结构如下: my { property { item { "1" { value="some value"
mysql - 插入简单+双引号 MySQL
这个问题已经有答案了: How to escape single quotes in MySQL (19 个回答) 已关闭 5 年前。考虑这个表 CREATE TABLE name ( nom VA
javascript - 如何允许在javascript中的html文本区域中显示单引号、双引号、换行符等字符
我面临 SyntaxError: unterminated string literal* 尝试在文本区域中设置值时出错。这里，文本值是动态的，从后端接收，可以包含任何字符。经过我的第一次调查，我
html - HTML 属性值中是否允许使用单引号/双引号？
我正在尝试设置包含单引号的属性值: var attr_value = "It's not working"; var html = "Text"; $('body').html(html); 但是，我

首页

博学

6Ren·AI

商城

r - 在 Xpath 中同时转义双引号和单引号

更新