- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
使用 R 中的 rvest 来抓取网页,我想从节点中提取相当于 innerHTML
的内容,特别是在应用 html_text
之前将换行符更改为换行符。
所需功能的示例:
library(rvest)
doc <- read_html('<html><p class="pp">First Line<br />Second Line</p>')
innerHTML(doc, ".pp")
应产生以下输出:
[1] "<p class=\"pp\">First Line<br>Second Line</p>"
在 rvest 0.2
中,这可以通过 toString.XMLNode
实现
# run under rvest 0.2
library(XML)
html('<html><p class="pp">First Line<br />Second Line</p>') %>%
html_node(".pp") %>%
toString.XMLNode
[1] "<p class=\"pp\">First Line<br>Second Line</p>"
对于较新的 rvest 0.2.0.900
,此功能不再起作用。
# run under rvest 0.2.0.900
library(XML)
html_node(doc,".pp") %>%
toString.XMLNode
[1] "{xml_node}\n<p>\n[1] <br/>"
所需的功能通常在 xml2
包的 write_xml
函数中提供,rvest
现在依赖于该函数 -如果只有 write_xml
可以将其输出提供给变量而不是坚持写入文件。 (也不接受 textConnection
)。
作为解决方法,我可以暂时写入文件:
# extract innerHTML, workaround: write/read to/from temp file
html_innerHTML <- function(x, css, xpath) {
file <- tempfile()
html_node(x,css) %>% write_xml(file)
txt <- readLines(file, warn=FALSE)
unlink(file)
txt
}
html_innerHTML(doc, ".pp")
[1] "<p class=\"pp\">First Line<br>Second Line</p>"
有了这个,我就可以将换行标记转换为换行符:
html_innerHTML(doc, ".pp") %>%
gsub("<br\\s*/?\\s*>","\n", .) %>%
read_html %>%
html_text
[1] "First Line\nSecond Line"
有没有更好的方法可以使用现有的功能来做到这一点,例如rvest
、xml2
、XML
或其他包?我特别想避免写入硬盘。
最佳答案
正如 @r2evans 指出的,as.character(doc)
是解决方案。
关于最后一个代码片段,它想要提取 <br>
- 转换时将文本从节点中分离出来<br>
对于换行符,当前 Unresolved rvest issue #175, comment #2 中有一个解决方法:
此问题的简化版本:
doc <- read_html('<html><p class="pp">First Line<br />Second Line</p>')
# r2evan's solution:
as.character(rvest::html_node(doc, xpath="//p"))
##[1] "<p class=\"pp\">First Line<br>Second Line</p>"
# rentrop@github's solution, simplified:
innerHTML <- function(x, trim = FALSE, collapse = "\n"){
paste(xml2::xml_find_all(x, ".//text()"), collapse = collapse)
}
innerHTML(doc)
## [1] "First Line\nSecond Line"
关于R:rvest提取innerHTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30129407/
我有一个非常简单的函数,用于替换元素的innerHTML。我已经尝试调试这个问题几个小时了,但就是做不到,这令人恼火。 当从按钮调用时,按下 JavaScript(如下)可以正常工作,但是当从另一个函
我正在开发的代码片段有四个带有 javascript 的内部 html,现在我的问题是我们能否从所有这些数据中获取所有这些数据并添加(如果是整数)它们或连接(如果是字符串)并显示在另一个 div 标签
我正在使用 [innerHTML]显示一个字符串。字符串由同一对象的两个属性组成。该对象来自将对象列表(来自 NgRx 的 Observable)传递给 *ngFor .此外,管道用于决定应该在 [i
首先,我对编码完全陌生,并且一直在空闲时间使用自学工具学习 Javascript。我已经学到了足够的知识来开始构建自己的项目。我的第一次尝试是构建一个随机发生器(在本例中为随机餐厅名称)。 Javas
如题,这些span元素在浏览器中以两种样式显示,为什么? function loadHTML() { var html = 'sfdssfds';
我有一个格式如下的 HTML 文件: subject detail important subject detailimportant 我写了一个 PHP 代码来自动获取每个 p1 并将它们插入到我的
我希望这个主题符合问题。 嘿,请原谅我的笨蛋,但我一直在绞尽脑汁地试图解决这个问题。 代码: chapter 1';">Wonderful 我想要的是显示一个名为“Wonderful”的链接,
我正在调用一个打印到 div 的函数,然后返回一个也打印到 div 的字符串。以下将只打印“二”,但我期待它先打印“一”再打印“二”: global_cdiv = "view" fu
我有一个 不是 contentEditable 的 div。我捕获击键,将关联的字符插入到内存中的字符串中,然后调用 render() 函数用当前字符串替换 div 的 innerHTML。 我的问题
假设我们在页面上有一个 DIV x,我们想将那个 DIV 的内容复制(“复制粘贴”)到另一个 DIV y 中。我们可以这样做: y.innerHTML = x.innerHTML; 或使用 jQuer
我正在尝试根据 javascript 函数填充的数字更改 div 的innerHTML。不幸的是,我收到了一个错误,但我不确定为什么。 伪代码 如果number > 2将innerHTML更改为秒,否
我正在使用 ServiceNow 和 Angular.js 构建的网站上进行开发。页面似乎工作正常,直到我将 body 替换为自身后,所有 Buttons/onClicks 或搜索都停止响应..有人知
带有 [innerHtml] 指令的元素似乎只是在该元素内添加声明的 html 字符串,仅此而已; 通过 this stackblitz ,我试图在这样的元素中添加一些东西,但没有成功; new wo
为什么选址 http://xn--wiadomesny-37b.pl/test/抛出 Uncaught TypeError: Cannot set property 'innerHTML' of nu
我的 javascript 获取日期和时间并将其放置在 div 中如下: function print(message){ var div1= document.getElementById("d
在下面的代码中,我尝试以不将猫名称硬编码到 html 的方式设置猫名称。因此我使用的是数组。然而,每当我尝试将innerHTML属性设置为catNames [0]或catNames [1]时,我都会收
我正在使用 mootool 的 Request.JSON 从 Twitter 检索推文。收到它后,我将写入目标 div 的 .innerHTML 属性。当我在本地将其作为文件进行测试时,即 file:
这个问题在这里已经有了答案: How to get Angular2 to bind component in innerHTML (1 个回答) 关闭 6 年前。 所以我正在构建一个 angula
我有一个简短的脚本,它在 innerHTML 中查找具有特定文本的特定类,然后使用 replaceWith 替换整个元素。当只有一段特定的文本时,此方法非常有用,但我有几个项目要查找和替换。 下面的
我正在尝试使用 Wordpress/Woocommerce 上动态生成的 div 类更改“查看购物车”按钮的 innerHTML。我之前问过一个关于这个的问题,有人建议(谢谢 Mike :))因为 J
我是一名优秀的程序员,十分优秀!