bash - Lynx - 如何在转储网站内容之前延迟下载过程-6ren

bash - Lynx - 如何在转储网站内容之前延迟下载过程

转载作者：行者123 更新时间：2023-12-04 04:48:20

25

4

我想使用 保存这个特定网站的全部内容猞猁

http://build.chromium.org/f/chromium/perf/dashboard/ui/changelog.html?url=%2Ftrunk%2Fsrc&range=41818%3A40345&mode=html

我使用了这些命令

webpage="http://build.chromium.org/f/chromium/perf/dashboard/ui/changelog.html?url=%2Ftrunk%2Fsrc&range=41818%3A40345&mode=html"

lynx -crawl -dump  $webpage > output

我的输出只是这样:

SVN path: ____________________ SVN revision range: ____________________

预计何时会包含有关错误和评论的所有信息。

在 URL 中，它包含“/trunk/src”和“41818:40345”值，这些值应该放入 SVN路径和 SVN 修订范围 然后提交它以获取内容但它没有。

问题:您是否有任何想法“告诉”lynx 在网站呈现其内容时等待一段时间直到完成？

先谢谢了。

最佳答案

这里的问题是网页是由 javascript 函数构建的。使用lynx(或curl，恕我直言更擅长解决基本下载问题)等工具下载此类页面可能会很棘手。为了下载您在该页面上看到的内容，您需要首先加载页面所需的 javascript 文件，然后“就像您是浏览器一样”执行 javascript。该 javascript 将继续请求一些数据，结果是 XML，然后从该数据构建 HTML。

请注意，“网站”不会呈现其数据。您的浏览器呈现数据。或者，更准确地说，您的浏览器应该呈现它，但 lynx 不会，因为它不执行 javascript。

所以你有几个选择。您可以尝试找到可编写脚本的 javascript 感知浏览器(iirc links 执行 javascript，但我不知道如何编写脚本以执行您想要的操作。)

或者你可以作弊。通过使用 Chrom{e,ium} 的“开发人员”工具，您可以查看 javascript 请求的 URL。事实证明，在这种情况下，

http://build.chromium.org/cgi-bin/svn-log?url=http://src.chromium.org/svn//trunk/src&range=41818:40345

所以你可以通过 curl 得到它如下

curl -G \
     -d url=http://src.chromium.org/svn//trunk/src \
     -d range=41818:40345 \
     http://build.chromium.org/cgi-bin/svn-log \
     > 41818-40345.xml

XML 数据的格式非常简单(即显然很容易进行逆向工程)。然后你可以使用一个简单的脚本化 xml 工具，比如 xmlstarlet (或任何 XSLT 工具)将 xml 分开并根据需要重新格式化。幸运的是，您甚至可能会在某处找到 xml 的一些文档(或 DTD)。

至少，这就是我将继续的方式。

关于bash - Lynx - 如何在转储网站内容之前延迟下载过程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17838357/

25

4

0

文章推荐： matlab - 在 MatLab 中做导数

文章推荐： matlab - 在matlab中有效地从球体上的许多圆圈均匀采样

http - 在 Lynx 中使用 "Post/Redirect/Get"模式不起作用，因为 Lynx 不重定向
执行 POST 保存页面后，我返回重定向 GET 页面(即 "Post/Redirect/Get" 模式)。这在我测试过的所有“主流”(和一些不太主流的)浏览器中都运行良好，除了 lynx 和衍生产
bash - Lynx - 如何在转储网站内容之前延迟下载过程
我想使用保存这个特定网站的全部内容猞猁 http://build.chromium.org/f/chromium/perf/dashboard/ui/changelog.html?url=%2Ftr
ubuntu - Lynx 浏览器在哪里下载文件？
我在 Ubuntu 上使用 Lynx 命令行浏览器。我有一个 Generate Report我的网页上的按钮，单击该按钮时，将从我的 Rails 应用程序下载 Excel 报告。我无法找到下载的文件
javascript - 检查 lynx 中的元素
我正在 lynx Web 浏览器中寻找元素检查器。我想从网站中提取一些数据。它涉及每次稍微更改链接的 URL 并获取信息。我尝试在 Firefox 中使用宏，但不知道如何编写 for 循环之类的东西。
bash - 在后台运行 lynx -dump？
我有一个 bash 脚本 mystuff 包含一行 lynx -dump http://example.com >tmpfile 并且脚本工作正常，包括这部分，除了当我以非交互方式运行它时: $ ./
html - 仅在 Lynx 中显示消息？
我在网站上有一张图片，里面有文字。如果图像被禁用(包括 Lynx)，有没有办法显示纯文本而不是图像？最佳答案使用 img 标签的 alt 参数关于html - 仅在 Lynx 中显示消息？，我
linux - 如何为 lynx 设置代理
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
cookies - Lynx 将其 cookie 存储在哪里？
我想知道基于文本的网络浏览器 lynx 在哪里存储其 cookie。查看手册有关于如何启用 cookie 等的选项，但找不到让 lynx 删除存储的 cookie 的方法。因此，我可能必须手动删除它们
java - 从 java 应用程序执行 Lynx
我想为我的服务器开发一个 java 应用程序，但我需要对网站 API (Twitch) 进行身份验证。为此，我需要通过网页连接到帐户，因此我想使用 Lynx 来执行此操作。但是，当我尝试从 java
linux - Lynx:当用户名包含域时如何使用 -auth 标志？
我对 Lynx 有疑问。我正在尝试使用 -auth 标志登录网页。我使用的线路是 lynx -accept_all_cookies -auth=mydomain\myuser:mypass http:
javascript - 在 Lynx 中查看我的网页时如何隐藏一个 div？
我的网站有一个 div 元素(以 block 的形式)，我想在用户通过不支持 JavaScript 的基于文本的浏览器(如 Lynx)访问该网站时隐藏它。基本上我需要编写什么命令或代码才能实现这一点
linux - Lynx 对 Google 搜索的请求不起作用
我在 vps 上安装了 Centos 6.2 x64、Lynx 2.8.6rel.5。我在控制台中尝试 [root@turbomoney ~]# lynx http://www.google.com
linux - 使用 javascript 的 Lynx
所以我用 PHP 编写了一个脚本，需要 javascript 才能运行。我很难找到关于如何使用一些 linux 工具使其自动运行 javascript 和 php 同时运行的解决方案(因为在我的浏览器
shell - 映射 lynx 中的键以运行 shell 命令
是否可以向 lynx 添加自定义键盘映射(在配置文件 ~/.lynxrc 中)，它将信息(例如当前 URL、html、标题等)发送到 shell 命令？示例用例:我在 OSX 上，shell 有一个
utf-8 - Lynx UTF-8 支持
我在 OS X 10.11 上使用 Lynx。但是，它不会为非 ASCII 字符打印 UTF-8，而是打印它们的 ASCII 表示，或者 ef bf bd “替换”字符 (?)。我一直在学习this
bash - 如何从 "lynx --dump -listonly"中删除编号
$ lynx --dump -listonly index.html 示例结果: References Visible links 1. http://lynx.invisible-island.ne
linux - 如何使用 lynx 命令行发布 JSON 数据？
我能够像下面这样使用 curl 发布 JSON 并能够获得 JSON 输出 curl -X POST -H Content-Type:application/json -d '{"xyz":"abc"
php - lynx unix 命令无法使用 URL 中的多个参数
我正在尝试通过 PHP 使用 lynx 运行 URL，下面是我正在使用的代码。 shell_exec(lynx 'www.example.com&post=123&auth=45); 类似的东西。现
bash - 在 shell 中使用 lynx，存储转储以供进一步 grep
是否有可能在 bash 脚本中使用 lynx 作为浏览器获取网页内容将它存储在一个变量中(实际上只有一个网络访问页面)然后做很多 grep 来提取信息？我试过类似的东西: content="$(ly
linux - 当传递给 lynx 的 URL 无效时，如何设置默认操作？
我的目标是编写一个小的 bash 脚本，将给定 PHP 函数手册页的内容输出到终端。我当前的脚本(pfunc)如下: #!/bin/bash if [ -z "$1" ] then

首页

博学

6Ren·AI

商城

bash - Lynx - 如何在转储网站内容之前延迟下载过程