gpt4 book ai didi

Selenium |获取网页的文本

转载 作者:行者123 更新时间:2023-12-01 00:44:53 25 4
gpt4 key购买 nike

有没有办法从 RSelenium 中的 remoteDriver 获取纯文本?
一些想法像:remDr$getPlainText()相当于 remDr$getPageSource() .

解决方法:

我设法保存了 phantomJS 的 plainText到一个文件如下:

  require(RSelenium)
pJS <- phantom()
Sys.sleep(5) # give the binary a moment
remDr = remoteDriver(browserName = 'phantomjs')
remDr$open()
remDr$phantomExecute('var page = this;
var fs = require(\"fs\");
page.onLoadFinished = function(status) {
var txtFile = fs.open(\"url.txt\", \"w\");
txtFile.write(page.plainText);
txtFile.close();
};')

remDr$navigate(some_url)

但是后来我必须在后记中阅读文件...

我的解决方法类似于 https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-headless.html#id3b

最佳答案

我不确定它是否解决了问题。

library(RSelenium)
checkForServer()
startServer()
re<-remoteDriver()
re$open()
re$navigate("link")
txt<-re$findElement(using='css selector',"body")$getElementText()

关于 Selenium |获取网页的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35259813/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com