gpt4 book ai didi

r - 在 R 的 rvest 包中编写哪个选择器?

转载 作者:行者123 更新时间:2023-12-04 11:15:23 25 4
gpt4 key购买 nike

我正在尝试从特定网站的源代码中提取信息

在源代码中有几行:

# [[4]]
# <script type="text/javascript">
# <![CDATA[
# <!-- // <![CDATA[
# var wp_dot_addparams = {
# "cid": "148938",
# "ctype": "article",
# "ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",
# "cauthor": "",
# "csource": "film.wp.pl",
# "cpageno": 1,
# "cpagemax": 1,
# "cdate": "2015-02-18"
# };
# // ]]]]><![CDATA[> -->
# ]]>
# </script>

我想从中提取:
"ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",

有谁知道我应该如何在 html_nodes 中指定选择器函数在 rvest R中的包?
html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>%
html_nodes("script")

最佳答案

  • 从元素的文本中提取 JSON 对象(在您使用它时整理选择器)
  • 使用 jsonlite 的 fromJSON() 函数将其解析为列表。
  • 您可以使用“$ctags”直接访问它
    library(jsonlite)

    json <- html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>%
    html_nodes("script:contains('var wp_dot_addparams')") %>%
    gsub(x=., pattern=".*var wp_dot_addparams = (\\{.*\\});.*",replacement="\\1") %>%
    fromJSON()

    json$ctags

    [1] "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions"
  • 关于r - 在 R 的 rvest 包中编写哪个选择器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29348573/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com