- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经阅读了一些有关 Headless-Chrome 和 Google 开发的 Puppeteer API 的内容。到目前为止,我已经在 Stack Overflow 上看到了一些关于运行 Headless Chrome 的答案,而且我还了解有关 Selenium 用于测试网页和抓取网页的所有信息。我自己编写了一个 HTML 解析器、搜索和更新包,但是当网页上的 Java 脚本包含我试图解析和检索的数据时,我经常遇到问题。
根据 Google 的文档,Google Cloud Platform Shell(Linux/Debian/BSD 类型的 UNIX 命令行,类似于 Amazon Web Services)已支持 Headless Chrome。今天,我尝试使用简单的 Headless Chrome 命令行下载网页,但 Shell 向我返回了一个错误,如下所示:
@cloudshell:~$ chrome --headless --disable-gpu --dump-dom https://sepehr.irib.ir/?idc=32&idt=tv&idv=1
我在 GCP 上的 BASH Shell 实例中输入了此内容,并收到了此错误。
[1] 498
[2] 499
bash: chrome: command not found
[2]+ Done idt=tv
上面的URL只是来自这个Stack Overflow question的URL 。我只是想看看我是否可以回答它。这是我在网页抓取标签上读到的一种非常常见的“网页抓取”问题。这并不是太重要(对我来说不是,但可能对 OP 来说可能很重要!)根据一些 YouTube 视频,Google Chrome Headless JSON API 允许用户启动 Chrome 实例,以便它功能类似于PaaS,而不是可以查看的UI。这看起来相当不错,而且我完全知道 Selenium Web-Scraping Technology 已经利用了这项服务。然而,我只想开始从 Java 访问 JSON API - 不使用 Selenium - 主要是看看我是否能理解它,并希望开始制作 JSON从 Google Cloud Shell 实例向 Headless Chrome 发出请求(使用 Java),而不会增加 Java Selenium 包的所有复杂性。
这个Stack Overflow question (和答案)似乎是我的问题的“部分重复”,不幸的是,Google 帮助页面指出,自 2019 年以来,该服务已得到全面支持 - 这里的答案来自 2018 年。我怀疑我不应该执行完整的操作构建 Chrome 以便从命令行运行 headless Chrome 实例,但我可能是错的。无论如何,反射(reflect) Google 开发人员 2019 年和 2020 年工作的更新答案将会有所帮助 - 而且更重要的是,我想使用“Plain Old Java Objects”来查询浏览器,而不是使用 Pupeteer
和 Node.JS
。我可以在 Java 中很好地处理 JSON
。
Is there a BASH 'sudo' command that I may use to get an instance of
Chrome
running in the Shell of GCP?
我已经查看了这个问题的建议重复项,但不知道该怎么办...:)
最佳答案
首先,您必须在 Cloud Shell 上安装 headless chrome。这是脚本
export CHROME_BIN=/usr/bin/google-chrome
export DISPLAY=:99.0
sh -e /etc/init.d/xvfb start
sudo apt-get update
sudo apt-get install -y libappindicator1 fonts-liberation libasound2 libgconf-2-4 libnspr4 libxss1 libnss3 xdg-utils
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome*.deb
然后运行您的命令。不要忘记用双引号 "
将 URL 引起来,因为 &
在 linux 中运行另一个线程
/usr/bin/google-chrome-stable --headless --disable-gpu --dump-dom "https://sepehr.irib.ir/?idc=32&idt=tv&idv=1"
我使用此命令修复了一些错误
sudo apt --fix-broken install
关于java - 如何在 Google Cloud Platform 上的 Shell 中运行 Headless Chrome,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60991515/
我有一个 Cloud Run 服务,它通过 SQLAlchemy 访问 Cloud SQL 实例.但是,在 Cloud Run 的日志中,我看到 CloudSQL connection failed.
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
在将 docker 容器镜像部署到 Cloud Run 时,我可以选择一个区域,这很好。 Cloud Run 将构建委托(delegate)给 Cloud Build,后者显然会创建两个存储桶来实现这
我正在尝试将 Cloud Functions 用作由 PubSub 触发的异步后台工作程序,并进行更长时间的工作(以分钟为单位)。完整代码在这里https://github.com/zdenulo/c
这是/etc/cloud/cloud.cfg的内容Ubuntu云16.04镜像: # The top level settings are used as module # and system co
如何从 Google Cloud Function 启动 Cloud Dataflow 作业?我想使用 Google Cloud Functions 作为启用跨服务组合的机制。 最佳答案 我已经包含了
我想使用 Cloud Shell 在我的第二代 Cloud Sql 实例上运行数据库迁移。 我找到了一个 example in the docs关于如何使用 gcloud 进行连接.但是当我运行命令时
我正在尝试使用 Google Cloud PubSub和我的 Google Cloud Dataproc群集,我收到如下身份验证范围错误: { "code" : 403, "errors" :
这是我的用例。 我已经有一个以私有(private)模式部署的 Cloud Run 服务。 (与云功能相同的问题) 我正在开发使用此 Cloud Run 的新服务。我在应用程序中使用默认凭据进行身份验
如何连接到 Cloud SQL 上的数据库,而无需在容器中添加我的凭据文件? 最佳答案 使用 UNIX 域套接字 (Java) 从云运行(完全托管)连接到云 SQL At this time Clou
我有一个google-cloud-ml作业,需要从gs存储桶加载numpy .npz文件。我遵循了this example上关于如何从gs加载.npy文件的操作,但是由于.npz文件已压缩,因此它对我
我想创建链接到另一个项目中的 Cloud Source Repository 的 Cloud Build 触发器。但是当我在应该选择存储库的步骤中时,列表是空的。我尝试了不同的许可,但没有运气。谁能告
向 Twilio 发送 SMS 时,Twilio 会向指定的 URL 发送多个请求,以通过 Webhook 提供该 SMS 传送的状态。我想让这个回调异步,所以我开发了一个 Cloud Functio
我需要更改我的项目 ID,因为要验证的 Firebase 身份验证链接在链接上显示了项目 ID,并且由于品牌 reshape ,项目名称已更改。根据我发现的信息,更改项目 ID 似乎不太可能。我正在考
用于部署我的 Angular 应用程序的 CI/CD 管道已关闭,但我看到 Google Cloud Run 在容器镜像更新后没有部署新修订版。 我已将 Cloud Build 设置为在 GitHub
报价https://cloud.google.com/load-balancing/docs/https/setting-up-https-serverless#enabling While Goog
Cloud Spanner 提供了两种不同的 API。 Cloud Spanner 读取与 Cloud Spanner SQL API 之间有什么区别? 最佳答案 在幕后,它们都使用相同的执行机制,因
我是 GCP 堆栈的新手,所以我对用于存储数据的 GCP 技术数量感到非常困惑: https://cloud.google.com/products/storage 虽然上面的文章中没有提到googl
我发现 Google Cloud Functions 的网络出站费用令人惊讶,我正在尝试了解发生这种情况的原因以及如何避免这种情况。 Stackdriver 监控表明有问题的函数是我的 ingest
我使用 Prisma使用 Cloud Run 和 Cloud SQL。在向 prisma.schema 提供 DATABASE_URL 后,它会在运行时抛出一个错误。 Can't reach data
我是一名优秀的程序员,十分优秀!