rvest:语言选择在 tripadvisor 中不起作用-6ren

rvest:语言选择在 tripadvisor 中不起作用

转载作者：行者123 更新时间：2023-12-04 03:35:54

26

4

我正面临网络抓取问题。我打算在 tripadvisor 上收集一些评论。我想使用 rvest 并获得所有语言的评论。来自 this questions我知道一种可能的方法是在 url 的末尾使用 ?filterLang=ALL 。在网络浏览器中，它确实有效。示例:

https://www.tripadvisor.com/Restaurant_Review-g187147-d2013853-Reviews-114_Faubourg-Paris_Ile_de_France.html?filterLang=ALL

是否提供选择“所有语言”的评论(您可以看到很多法语评论)。这是我的问题:我尝试获取评论的标题:

library(rvest)
url <- "https://www.tripadvisor.com/Restaurant_Review-g187147-d2013853-Reviews-114_Faubourg-Paris_Ile_de_France.html?filterLang=ALL"

reviews_html <- read_html(url)

reviews_html %>%
  html_nodes(xpath = "//span[@class='noQuotes']") %>%
  html_text()

 [1] "I've never visited this restaurant," "Perfect"                            
 [3] "Memorable experience"                "Tasty"                              
 [5] "Absolutely spectacular"              "Excellent"                          
 [7] "Wonderfullll"                        "A Perfect Evening"                  
 [9] "Dinner "                             "Perfect dinner and evening"

我只有英文的。奇怪的是:如果我尝试获取页数:

reviews_html %>%
  html_nodes(xpath = "//div[@data-tab='TABS_REVIEWS']//a[@data-page-number]")%>%
  html_text()

[1] "Next" "1"    "2"    "3"    "4"    "5"    "6"    "176"

我有对应“所有语言”选项的评论页数!如果与没有选择语言的情况比较

url <- "https://www.tripadvisor.com/Restaurant_Review-g187147-d2013853-Reviews-114_Faubourg-Paris_Ile_de_France.html"

reviews_html <- read_html(url)

reviews_html %>%
  html_nodes(xpath = "//span[@class='noQuotes']") %>%
  html_text()

 [1] "I've never visited this restaurant," "Perfect"                            
 [3] "Memorable experience"                "Tasty"                              
 [5] "Absolutely spectacular"              "Excellent"                          
 [7] "Wonderfullll"                        "A Perfect Evening"                  
 [9] "Dinner "                             "Perfect dinner and evening"

我得到了相同的评论，但是:

reviews_html %>%
  html_nodes(xpath = "//div[@data-tab='TABS_REVIEWS']//a[@data-page-number]")%>%
  html_text()

[1] "Next" "1"    "2"    "3"    "4"    "5"    "6"    "61"

我得到对应于英文语言选择的页数。我也尝试设置 cookies:

library(httr)

url <- "https://www.tripadvisor.com/Restaurant_Review-g187147-d2013853-Reviews-114_Faubourg-Paris_Ile_de_France.html?filterLang=ALL"
httr::GET(url, 
          set_cookies(`TALanguage` = "ALL",
                      `Domain` = ".tripadvisor.com"))%>%
  read_html()%>%
  html_nodes(xpath = "//span[@class='noQuotes']") %>%
  html_text()

但是也没用。有谁知道发生了什么，以及我可以做些什么来使用 rvest 获得所有语言的评论？

最佳答案

当您手动选择过滤器时，在同一 url 上有一个 POST 调用。在表单正文中设置 filterLang=ALL 会正确返回数据:

library(rvest)
library(httr)

reviews_html <- POST(
    "https://www.tripadvisor.com/Restaurant_Review-g187147-d2013853-Reviews-114_Faubourg-Paris_Ile_de_France.html",
    add_headers('x-requested-with'= 'XMLHttpRequest'),
    body = list(
      preferFriendReviews = "FALSE",
      t = "",
      q = "", # filter by mention, try "france"
      filterSeasons = "", # "1" is mar-may / "2" is jun-aug / "3" is sep-nov / "4" is dec-feb
      filterLang = "ALL", # try "zhCN" or "fr"
      filterSafety = "FALSE",
      filterSegment = "", # "3" is families / "2" is couples / "5" is solo / "1" is business / "4" is friends
      trating = "", # stars: "5" / "4" / "3" / "2" / "1" / "0"
      isLastPoll = "false",
      changeSet = "REVIEW_LIST"
    ), 
    encode = "form") %>%
    read_html()

reviews <- reviews_html %>%
    html_nodes(xpath = "//span[@class='noQuotes']") %>%
    html_text()

print(reviews)

pages  <- reviews_html %>%
  html_nodes(xpath = "//div[@data-tab='TABS_REVIEWS']//a[@data-page-number]")%>%
  html_text()

print(pages)

在上面的代码中，如果您需要这些过滤器，我添加了一些关于字段的描述

kaggle link

输出:

 [1] "I've never visited this restaurant," "Excellente expérience"              
 [3] "Du grand art"                        "Promesse tenue"                     
 [5] "Une soirée de rêve en famille"       "Délicieux !!! "                     
 [7] "Une expérience inoubliable"          "UN CERTAIN REGARD"                  
 [9] "Excellent soiree en couple"          "Une soirée magnifique"              
[1] "Next" "1"    "2"    "3"    "4"    "5"    "6"    "176"

关于rvest:语言选择在 tripadvisor 中不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66916363/

26

4

0

文章推荐： spring-boot - 如何在运行时启用/禁用实体关系？

文章推荐： html - Font awesome Unicode 图标未显示在下拉列表中

文章推荐： python - 如何将同义词存储为数据框中的列？

带有重载提取器的 Scala 语言？
至少在某些 ML 系列语言中，您可以定义可以执行模式匹配的记录，例如http://learnyouahaskell.com/making-our-own-types-and-typeclasses -
用于并发编程的 .NET 语言
这可能是其他人已经看到的一个问题，但我正在尝试寻找一种专为(或支持)并发编程而设计的语言，该语言可以在 .net 平台上运行。我一直在 erlang 中进行辅助开发，以了解该语言，并且喜欢建立一个稳
ide - 语言+ IDE教学高中生？
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
ipc - 语言/操作系统之间的进程间通信
我正在寻找一种进程间通信工具，可以在相同或不同系统上运行的语言和/或环境之间使用。例如，它应该允许在 Java、C# 和/或 C++ 组件之间发送信号，并且还应该支持某种排队机制。唯一明显与环境和语言
java - 使用正则表达式解析不同的语言环境/语言？
我有一些以不同语言返回的文本。现在，客户端返回的文本格式为(en-us，又名美国英语): Stuff here to keep. -- Delete Here -- all of this below
Julia 语言 : findInterval
问题:我希望在 R 中找到类似 findInterval 的函数，它为输入提供一个标量和一个表示区间起点的向量，并返回标量落入的区间的索引。例如在 R 中: findInterval(x = 2.6,
Java 语言 IllegalStateException
我是安卓新手。我正在尝试进行简单的登录 Activity ，但当我单击“登录”按钮时出现运行时错误。我认为我没有正确获取数据。我已经检查过，SQLite 中有一个与该 PK 相对应的数据。日志猫。
C#语言，计算器
大家好，感谢您帮助我。我用 C# 制作了这个计算器，但遇到了一个问题。当我添加像 5+5+5 这样的东西时，它给了我正确的结果，但是当我想减去两个以上的数字并且还想除或乘以两个以上的数字时，我没有
C 语言以二进制方式访问内存
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
C 语言 - 如何修复代码中的二分查找函数？
这就是我所拥有的 #include #include void print(int a[], int size); void sort (int a[], int size); v
C 语言我的代码中出现错误
你好，我正在寻找我哪里做错了？ #include #include int main(int argc, char *argv[]) { int account_on_the_ban
将数字读入数组时代码崩溃...C 语言
嘿，当我开始向数组输入数据时，我的代码崩溃了。该程序应该将数字读入数组，然后将新数字插入数组中，最后按升序排列所有内容。我不确定它出了什么问题。有人有建议吗？这是我的代码 #include #in
凯撒密码 C 语言
我已经盯着这个问题好几个星期了，但我一无所获!它不起作用，我知道那么多，但我不知道为什么或出了什么问题。我确实知道开发人员针对我突出显示的行吐出了“错误:预期表达式”，但这实际上只是冰山一角。如果有人
点对点聊天中程序的多个实例之间的通信 - C 语言
我正在编写一个点对点聊天程序。在此程序中，客户端和服务器功能写入一个唯一的文件中。首先我想问一下我程序中的机制是否正确？ I fork() two processes, one for client
计算不以句点结尾的段落，C 语言
基本上我需要找到一种方法来发现段落是否以句点 (.) 结束。此时我已经可以计算给定文本的段落数，但我没有想出任何东西来检查它是否在句点内结束。任何帮助都会帮助我，谢谢 char ch; FI
C 语言 -> 将段落中的单词分开
我的函数 save_words 接收 Armazena 和大小。 Armazena 是一个包含段落的动态数组，size 是数组的大小。在这个函数中，我想将单词放入其他称为单词的动态数组中。当我运行它时
比较两个字符 [C 语言]
我有一个结构 struct Human { char *name; struct location *location; int
C 语言 - 如何确保在读取多个输入文件时保持恒定格式？
我正在尝试缩进以下代码的字符串输出，但由于某种原因，我的变量不断从文件中提取，并且具有不同长度的噪声或空间(我不确定)。这是我的代码: #include #include int main (v
C 语言 - WHILE 循环的工作量超出了预期
我想让用户选择一个选项。所以我声明了一个名为 Choice 的变量，我希望它输入一个只能是 'M' 的 char 、'C'、'O' 或 'P'。这是我的代码: char Choice; printf
使用定义和变量连接数组 - C 语言
我正在寻找一种解决方案，将定义和变量的值连接到数组中。我已经尝试过像这样使用 memcpy 但它不起作用: #define ADDRESS {0x00, 0x00, 0x00, 0x00, 0x0

首页

博学

6Ren·AI

商城

rvest:语言选择在 tripadvisor 中不起作用