r - 通过带有嵌入式传单 svg 等的 RSelenium 提取底层数据-6ren

r - 通过带有嵌入式传单 svg 等的 RSelenium 提取底层数据

转载作者：行者123 更新时间：2023-12-03 13:41:19

我想提取有关此 link 中每个广告的信息。现在，我已经到了可以自动点击查看广告详细信息的阶段，但有很多基础数据无法直接整理成整洁的数据框。

library(RSelenium)
rs <- rsDriver()
remote <- rs$client
remote$navigate(
  paste0(
    "https://www.facebook.com/ads/library/?", 
    "active_status=all&ad_type=political_and_issue_ads&country=US&", 
    "impression_search_field=has_impressions_lifetime&", 
    "q=actblue&view_all_page_id=38471053686"
  )
)

test <- remote$findElement(using = "xpath", "//*[@class=\"_7kfh\"]")
test$clickElement()
## Manually figured out element
test <- remote$findElement(using = "xpath", "//*[@class=\"_7lq0\"]")
test$getElementText()

输出文本本身很困惑，但我相信通过一些时间和努力，它可以被整理成有用的东西。问题在于处理

中的底层数据

图表，看起来只是一个图像，并且
leaflet svg，当光标悬停在其上时显示数据。

我不知道如何系统地提取这张图像，尤其是传单 svg。在这种情况下，我将如何获取每个广告，然后提取详细信息中可用的完整数据？

最佳答案

年龄和性别图形是 Canvas 元素。要将它们作为图像获取，您可以截取元素的屏幕截图。 Python 示例:

driver.find_element_by_tag_name('canvas').screenshot("age_and_gender.png")

此广告的展示位置是 SVG，您可以用相同的方式将其另存为图像。结果不会很准确，因为 SVG 的可见部分和实际是不同的。但您可以在之后裁剪图像。 Python 示例:

driver.find_element_by_tag_name('svg').screenshot("where_this_ad_was_shown.png")

要从中提取完整数据，您不能使用 Selenium。获取数据的方式是配置代理服务器，捕获 API 请求，并获取 JSON 格式的数据。是的，这是可能的。

<小时/>

简单的方法是使用一些请求来获取 AD 和详细信息，而无需使用 Selenium。 Python 工作示例:

import json
import requests

params = (
    ('q', 'actblue'),
    ('count', '1000'), # default is 30, for 38471053686 it will return about 300 results.
    ('active_status', 'all'),
    ('ad_type', 'political_and_issue_ads'),
    ('countries/[0/]', 'US'),
    ('impression_search_field', 'has_impressions_lifetime'),
    ('view_all_page_id', '38471053686'),
)

data = {'__a': '1', }

with requests.session() as s:
    response = s.post('https://www.facebook.com/ads/library/async/search_ads/', params=params, data=data)
    ads = json.loads(response.text.replace('for (;;);', ''))['payload']['results']
    for ad in ads:
        ad_details_params = (
            ('ad_archive_id', ad[0]['adArchiveID']),
            ('country', 'US'),
        )
        response = s.post('https://www.facebook.com/ads/library/async/insights/', params=ad_details_params, data=data)
        print('parse json from response')

Not: Facebook not allows for automated data collection without written permission https://www.facebook.com/apps/site_scraping_tos_terms.php

But as we all know, Facebook does not refuse to collect our data.

每个广告详细信息的响应如下:

{
  "__ar": 1,
  "payload": {
    "ageGenderData": [
      {
        "age_range": "18-24",
        "female": 0.03,
        "male": 0.05,
        "unknown": 0
      },
      {
        "age_range": "25-34",
        "female": 0.12,
        "male": 0.12,
        "unknown": 0.01
      },
      {
        "age_range": "35-44",
        "female": 0.16,
        "male": 0.09,
        "unknown": 0
      },
      {
        "age_range": "45-54",
        "female": 0.11,
        "male": 0.05,
        "unknown": 0
      },
      {
        "age_range": "55-64",
        "female": 0.09,
        "male": 0.04,
        "unknown": 0
      },
      {
        "age_range": "65+",
        "female": 0.09,
        "male": 0.03,
        "unknown": 0
      }
    ],
    "currency": "USD",
    "currencyMatched": true,
    "impressions": "35\u00a0B - 40\u00a0B",
    "locationData": [
      {
        "reach": 0,
        "region": "Alabama"
      },
      {
        "reach": 0,
        "region": "Utah"
      },
      {
        "reach": 0,
        "region": "Maine"
      },
      {
        "reach": 0,
        "region": "Louisiana"
      },
      {
        "reach": 0,
        "region": "Kentucky"
      },
      {
        "reach": 0,
        "region": "Kansas"
      },
      {
        "reach": 0,
        "region": "Idaho"
      },
      {
        "reach": 0,
        "region": "Delaware"
      },
      {
        "reach": 0,
        "region": "Connecticut"
      },
      {
        "reach": 0,
        "region": "Arkansas"
      },
      {
        "reach": 0,
        "region": "Hawaii"
      },
      {
        "reach": 0,
        "region": "Alaska"
      },
      {
        "reach": 0,
        "region": "Montana"
      },
      {
        "reach": 0,
        "region": "West Virginia"
      },
      {
        "reach": 0,
        "region": "Vermont"
      },
      {
        "reach": 0,
        "region": "Mississippi"
      },
      {
        "reach": 0,
        "region": "Wyoming"
      },
      {
        "reach": 0,
        "region": "Oklahoma"
      },
      {
        "reach": 0,
        "region": "North Dakota"
      },
      {
        "reach": 0,
        "region": "New Mexico"
      },
      {
        "reach": 0,
        "region": "New Hampshire"
      },
      {
        "reach": 0,
        "region": "Nebraska"
      },
      {
        "reach": 0,
        "region": "Rhode Island"
      },
      {
        "reach": 0,
        "region": "South Dakota"
      },
      {
        "reach": 0.01,
        "region": "Wisconsin"
      },
      {
        "reach": 0.01,
        "region": "Missouri"
      },
      {
        "reach": 0.01,
        "region": "Oregon"
      },
      {
        "reach": 0.01,
        "region": "Minnesota"
      },
      {
        "reach": 0.01,
        "region": "Maryland"
      },
      {
        "reach": 0.01,
        "region": "New Jersey"
      },
      {
        "reach": 0.01,
        "region": "Tennessee"
      },
      {
        "reach": 0.01,
        "region": "Washington, District of Columbia"
      },
      {
        "reach": 0.01,
        "region": "Indiana"
      },
      {
        "reach": 0.02,
        "region": "Michigan"
      },
      {
        "reach": 0.02,
        "region": "Iowa"
      },
      {
        "reach": 0.02,
        "region": "North Carolina"
      },
      {
        "reach": 0.02,
        "region": "Georgia"
      },
      {
        "reach": 0.02,
        "region": "Colorado"
      },
      {
        "reach": 0.02,
        "region": "Ohio"
      },
      {
        "reach": 0.02,
        "region": "Arizona"
      },
      {
        "reach": 0.02,
        "region": "Pennsylvania"
      },
      {
        "reach": 0.02,
        "region": "Virginia"
      },
      {
        "reach": 0.03,
        "region": "Washington"
      },
      {
        "reach": 0.03,
        "region": "Massachusetts"
      },
      {
        "reach": 0.04,
        "region": "Illinois"
      },
      {
        "reach": 0.04,
        "region": "Florida"
      },
      {
        "reach": 0.06,
        "region": "New York"
      },
      {
        "reach": 0.13,
        "region": "California"
      },
      {
        "reach": 0.19,
        "region": "Texas"
      }
    ],
    "singleCountry": "US",
    "spend": "$500 - $599",
    "pageSpend": {
      "currentWeek": null,
      "isPoliticalPage": true,
      "weeklyByDisclaimer": {
        "WARREN FOR PRESIDENT, INC.": 270970
      },
      "lifetimeByDisclaimer": {
        "Elizabeth for MA": 781272,
        "Warren for President": 3396973,
        "": 13584,
        "WARREN FOR PRESIDENT, INC.": 4081618,
        "the Elizabeth Warren Presidential Exploratory Committee": 219471
      },
      "hasPoliticalSpendInAnyCountry": true
    },
    "pageBlurb": "United States Senator from Massachusetts, former teacher, and candidate for President of the United States. (official campaign account)"
  },
  "bootloadable": {},
  "ixData": {},
  "bxData": {},
  "gkxData": {},
  "qexData": {},
  "lid": "6796246259692811543"
}

最后，要从 R 运行此 python 代码，请使用 reticulate，然后将整个 python 脚本作为字符串运行 - 请注意，如果 python 脚本不包含任何 " 字符，这样可以非常方便地直接放入 R，就像这样

library(reticulate)
py_run_string("import json
import requests
rest of script etc 
etc 
etc")

此外，您还需要安装脚本使用的两个 python 库。这可以通过在 Mac 上打开终端，然后输入 pip install json 来安装 json python 库，并输入 pip install requests 来完成请求库)

关于r - 通过带有嵌入式传单 svg 等的 RSelenium 提取底层数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60134698/

文章推荐： javascript - 根据变量改变 React 中组件的顺序？

文章推荐： javascript - 如何在一行中从单独的解构属性进行解构？

文章推荐： reactjs - 如何为 React 表单组件中的选择菜单设置默认值？

文章推荐： javascript - Reactjs 在 for 循环结束之前不会渲染

Javascript 底层 toString 转换
我有以下功能: function addChange(result, bill) { for (var i=0;i
html - 底层 CSS 转换完成时字体粗细向上移动
这是网站: www.wearethefirehouse.com/phasetest 如果您慢慢滚动，您会注意到一旦菜单栏完全不透明，nav li 元素就会全部从 Enzo 300 跳起来(如在没有导航
c# - 字节转换为 INT64，底层
美好的一天。对于当前的项目，我需要知道数据类型如何表示为字节。例如，如果我使用: long three = 500;var bytes = BitConverter.GetBytes(three);
java - JVM 如何收集 ThreadDump 底层
请解释 JVM 是如何在底层收集 ThreadDump 的。我不明白它如何收集脱离 CPU 的线程的堆栈跟踪(等待磁盘 IO、网络、非自愿上下文切换)。例如，linux perf 仅收集有关 on
r - vector - 字符/整数类(底层)
开始学习 R，如果能帮助我理解 R 如何决定不同向量的类别，我将不胜感激。我初始化 vec <- c(1:6)当我执行 class(vec)我得到“整数”。为什么它不是“数字”，因为我认为 R 中的整
iphone - 底层 View 如何知道其矩形是否被触摸，无论是直接还是间接？
我有一个透明的 UIView，几乎覆盖了整个屏幕。我在顶部留下了 50 像素。它是 View Controller View 的 subview 。在UIView下面有一个继承自UIView的MyV
javascript - 在 javascript 中查看对象(底层)
我很好奇对象是如何在 Nodejs 中显示的，在本例中是 Promise。使用 console.log(promiseObject) 时，输出的类型为 {状态:待处理} 这对我来说似乎很奇怪，因为在该
azure - Windows Azure - 表服务 - 底层
当您在 Windows Azure 中使用表服务 API 时，幕后到底在做什么？我想我在某处读到这没有使用 SQL Server。它是否执行哈希表，然后过滤器真的像映射/减少操作一样运行？我对这些东西
javascript - Array.prototype.concat() 底层
如何查看函数 concat 中的代码？它是如何做的？有没有人有代码的副本或在浏览器控制台中查看它的方法？ console.dir 不给我访问权限 console.dir(Array.prototype
c++ - 底层 std::array 的正确类型
我是 C++ 的新手，所以如果这个问题的答案显而易见，我深表歉意。我一直在编写 STL 样式的自定义数据结构，以此来提高我的技能。 (我实际上也确实需要这种结构，但出于学习目的，我有点过分了。) 此
Java Tomcat，底层 Netty 线程没有停止
我正在尝试使用 log4j appender 将日志发送到 GrayLog2 (log4j2-gelf)。所以我将我的依赖项添加到我的 pom.xml 配置 log4j2.xml 来配置我的 appe
C++ priority_queue 底层 vector 容器容量调整大小
我正在使用带有 vector 的 priority_queue 作为底层容器。但是我希望堆的大小非常大。我知道动态 vector 容量调整大小的问题。所以我正在寻找方法来为我的priority_que
SqlDataAdapter.Fill() 超时 - 底层 Sproc 快速返回
我有一个 SqlDataAdapter，它填充了 21 行数据(4 列)。驱动它的 sproc 在几秒钟内在 SQL Mgmt Studio 中返回，但 .Fill() 需要 5 分钟。 Ar
android - 底层 PinchArea 从 MultiPointTouchArea 窃取事件
我想实现一个屏幕控制按钮，按下它可以作为 GUI 交互的修饰符。这对于 MouseArea 是不可能的，因为该 API 只能处理一个鼠标区域中的一个触摸点。该限制不适用于 MultiPointTo
html - Bootstrap 4 中的中心图像和 Div 底层
我试图将图像和 div 层置于包含 div 的中心，但到目前为止我无法让它从列的左侧移动。我尝试了几种不同的方法，但就是无法让它移动。即使 margin auto 技巧也不起作用，我怀疑这是因为 bo
hadoop - 当我设置 Hadoop 时，*底层* 文件系统需要哪些权限？
需要明确的是，我不是在询问 HDFS 中的权限设置，而是在 ext3 中或在 HDFS 运行于其上的各个数据节点机器上使用的任何文件系统中。 p> 我知道我们设置了 sudo chown hduser
c# - Swagger C# 枚举生成 - 底层 int 值与原始枚举不匹配
我在服务器上创建了一个枚举，其中手动设置了整数值，而不是默认从 0 开始递增 public enum UserType { Anonymous = 0, Customer = 10,
html - 带有 z-index 的交互式 HTML 底层
如果显示框架图像，我们能否使以下 Google map 具有交互性。 Vie
iphone - 关闭模态视图 Controller 时，底层 UIScrollView 会调整为全屏
我有一个顶部有自定义状态栏的布局 [在 Apple 的状态栏下方]，然后是 UIScrollview 在中间部分从左到右分页，然后我有一个 UIView 底部有一些自定义按钮。一个简单的三 Pane
asp.net-mvc - 底层 View 设置后如何访问 ViewBag.Title？
事情是这样的。我有一个 MVC 操作，在该操作上，我应用了自定义 ActionFilterAttribute 来使反序列化工作。现在，我想要做的是根据在此 View 中设置的 ViewBag.Titl

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 通过带有嵌入式传单 svg 等的 RSelenium 提取底层数据