javascript - 如何使用 XMLHttpRequest 在后台下载 HTML 页面并从中提取文本元素？-6ren

javascript - 如何使用 XMLHttpRequest 在后台下载 HTML 页面并从中提取文本元素？

转载作者：行者123 更新时间：2023-11-30 12:33:44

25

4

我想制作一个 Greasemonkey 脚本，当您在 URL_1 中时，该脚本会在后台解析 URL_2 的整个 HTML 网页，以便从中提取文本元素。

具体来说，我想在后台下载整个页面的 HTML 代码(一个 Rotten Tomatoes 页面)并将其存储在一个变量中，然后使用 getElementsByClassName[0] 以便从类名为“critic_consensus”的元素中提取我想要的文本。

我在 MDN 中找到了这个:HTML in XMLHttpRequest所以，我最终遇到了这个不幸的非工作代码:

var xhr = new XMLHttpRequest();
xhr.onload = function() {
  alert(this.responseXML.getElementsByClassName(critic_consensus)[0].innerHTML);
}
xhr.open("GET", "http://www.rottentomatoes.com/m/godfather/",true);
xhr.responseType = "document";
xhr.send();

当我在 Firefox Scratchpad 中运行它时，它显示了这个错误消息:

Cross-Origin Request Blocked: The Same Origin Policy disallows reading the remote resource at http://www.rottentomatoes.com/m/godfather/. This can be fixed by moving the resource to the same domain or enabling CORS.

附言。我不使用 Rotten Tomatoes API 的原因是 they've removed the critics consensus from it .

最佳答案

对于跨源请求，获取的站点没有帮助设置允许的 CORS policy , Greasemonkey 提供the GM_xmlhttpRequest() function . (大多数其他用户脚本引擎也提供此功能。)

GM_xmlhttpRequest 专为允许跨源请求而设计。

要获取目标信息，请在结果上创建一个 DOMParser。不要使用 jQuery 方法，因为这会导致加载无关的图像、脚本和对象，从而减慢速度或使页面崩溃。

这里有一个完整的脚本来说明这个过程:

// ==UserScript==
// @name        _Parse Ajax Response for specific nodes
// @include     http://stackoverflow.com/questions/*
// @require     http://ajax.googleapis.com/ajax/libs/jquery/2.1.0/jquery.min.js
// @grant       GM_xmlhttpRequest
// ==/UserScript==

GM_xmlhttpRequest ( {
    method: "GET",
    url:    "http://www.rottentomatoes.com/m/godfather/",
    onload: function (response) {
        var parser  = new DOMParser ();
        /* IMPORTANT!
            1) For Chrome, see
            https://developer.mozilla.org/en-US/docs/Web/API/DOMParser#DOMParser_HTML_extension_for_other_browsers
            for a work-around.

            2) jQuery.parseHTML() and similar are bad because it causes images, etc., to be loaded.
        */
        var doc         = parser.parseFromString (response.responseText, "text/html");
        var criticTxt   = doc.getElementsByClassName ("critic_consensus")[0].textContent;

        $("body").prepend ('<h1>' + criticTxt + '</h1>');
    },
    onerror: function (e) {
        console.error ('**** error ', e);
    },
    onabort: function (e) {
        console.error ('**** abort ', e);
    },
    ontimeout: function (e) {
        console.error ('**** timeout ', e);
    }
} );

关于javascript - 如何使用 XMLHttpRequest 在后台下载 HTML 页面并从中提取文本元素？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26765311/

25

4

0

文章推荐： javascript - 指令不返回 html 元素

文章推荐： c# - 如何从 KEY 文件导入 RSA key

文章推荐： c# - Binary Reader 和 Writer 同时打开？

文章推荐： objective-c - 向 ViewController 辅助 UIView 添加约束

前端体验优化（5）——后台
　　从 0 开始搭建一套后台管理系统，成本巨大，所以都会选择一套成熟的组件库，基于此，再堆叠业务逻辑。我们公司的组件库基于 Ant Design。Ant Design 包含一套完整的后台解决方案，不仅
IOS内存管理与应用前台/后台
在我的 IOS 应用程序中，我有一个标记为 retain 的 NSDate* 属性当我的应用程序再次激活时，属性值已被释放。我是否误解了属性和内存管理的工作原理，我该如何防范？最佳答案很明显，
C#，后台 worker
我有一个使用 BackgroundWorker 组件的示例 WinForms 应用程序。它工作正常，但是当我点击 Cancel 按钮取消后台线程时，它并没有取消线程。当我点击 Cancel 按钮调用
后台 iOS 通知
我目前正在开发一个应用程序，该应用程序在启动时会对服务器执行 ping 操作，该服务器会为每个连接的设备返回一个唯一标识符。设备每 5 秒从服务器检索另一页以获取一组不同的数据。这个唯一的 ID 可以
iOS:后台/前台事件
我正在开发一个应用程序，当它通过主页按钮在后台按下时，计时器应该启动，当应用程序返回前台并且计时器已经过了一定时间时，应该是执行。我的问题是当我的应用程序转到背景/前景？是否有特殊的方法或其他技
iOS 后台 MKPointAnnotation
我有 map View ，其中几乎没有 MKPointAnnotation。一切正常，但是， View 的 MKPoiintAnnotation 的“背景”是“不可见的”，因此不是很“可见”。我想
后台 iOS 广告信标
我在 iOS 中开发广告数据应用程序。我的应用程序广告数据在前台很好。但我想在 ios 后台宣传信标数据。我设置了背景外设设置。和广告数据 advertisingData = [CBAdvertise
c# - 后台 worker
如果我有一组操作，我想根据特定条件在后台工作程序中运行，例如，我有 10 个条件 if(a) BackgroundWorker doA = new backgroundworker() if(
后台 Python 函数
我想独立运行一个函数。从我调用的函数中，我想在不等待其他函数结束的情况下返回。我试过用 threadind，但这会等待，结束。 thread = threading.Thread(target=my
后台 IOS 可达性通知
我想在用户在线时立即执行一些任务，即使他在后台也是如此。我正在使用 Reachability 类来检查互联网。但是当我在后台时，这个类没有通知我。我知道有人早些时候问过这个问题，但没有找到任何解决方案
后台 iOS 文字转语音
我在后台播放文本转语音时出现间歇性(哎呀!)问题，由 Apple Watch 触发。我已经正确设置了后台模式、AVSession 类别和 WatchKitExtensionRequest 处理程序。
C# - 后台 worker ？
我有一个相当复杂的程序，所以我不会在这里转储整个程序。这是一个简化版本: class Report { private BackgroundWorker worker; public
C#后台 worker
我有一个任务在 backgroundworker 中运行。单击开始按钮，用户将启动该过程，并获得一个取消按钮来取消处理。当用户点击取消时，我想显示一个消息框“进程尚未完成，你想继续吗”。这里我希望
ruby - 后台/守护进程
我有一个按以下方式编码的脚本。我想将它作为后台/守护进程运行，但是一旦我启动脚本，如果我关闭它从程序运行的终端窗口终止。我需要做什么来保持程序运行 loop do pid = fork do
android - 后台 Activity 识别
我正在制作一个使用 ActivityRecognition API 在后台跟踪用户 Activity 的应用，如果用户在指定时间段(例如 1 小时)内停留在同一个地方，系统就会推送通知告诉用户去散步.
swift - 后台 URLSession + Combine？
当尝试使用 URLSession 的 dataTaskPublisher 方法发送后台请求时: URLSession(configuration: URLSessionConfiguration.ba
C#，后台 worker 类
当我编译这段代码时，我得到了他的错误，对象引用设置为null，错误位置在Dowork中，argumenttest.valueone = 8; public partial class Form1 :
objective-c - 使用不活动的应用程序(后台)
有什么方法可以使用最小化或不活动的应用程序吗？我可以打开我的应用程序，然后打开并使用另一个应用程序，然后按一个按钮来激活我的程序吗？例如，打开我的应用程序，打开 Safari，按下按钮(F1 或任何
iphone - 后台 iOS 应用程序是否会收到显示屏即将进入休眠状态的通知？
我的具体要求是一个在后台运行的应用程序，被通知显示器即将进入休眠状态或者设备已经或即将达到空闲超时 - 然后唤醒并执行一些(简短的)一段代码。我在这里找到了有关应用程序被置于后台或暂停的通知的引用:
xcode - Cocoa - 以编程方式转到前台/后台
我有一个 LSUIElement 设置为 1 的应用程序。它有一个内置编辑器，因此我希望该应用程序在编辑器打开时出现在 Cmd+Tab 循环中。 -(void)stepIntoForegrou

首页

博学

6Ren·AI

商城

javascript - 如何使用 XMLHttpRequest 在后台下载 HTML 页面并从中提取文本元素？