gpt4 book ai didi

javascript - 使用 Apify 进行网页抓取

转载 作者:行者123 更新时间:2023-11-28 03:08:24 26 4
gpt4 key购买 nike

我正在尝试从 https://en.wikipedia.org/wiki/List_of_hedge_funds 抓取 URL

具体来说,我正在尝试使用 Apify 抓取该页面并从 HTML 中存在的 anchor 标记返回 URL 列表。在我的控制台中,我希望看到目标页面上名为 myValue 的属性中存在的一个或多个 anchor 标记的 href 属性的值。我还希望在名为 title 的属性中看到页面标题。相反,我只看到以下 URL 属性及其值。

enter image description here

我的 Apify actor 使用 Puppeteer 平台。所以我使用 pageFunction similar to the way Puppeteer uses it .

下面是运行 Apify UI 之前的屏幕截图。

enter image description here

页面功能
function pageFunction( context ) {
// called on every page the crawler visits, use it to extract data from it
var $ = context.jQuery;
var result = {
title: $('.wikitable').text,
myValue: $('a[href]').text,
};
return result;
}

我做错了什么?

最佳答案

您的代码中有一个拼写错误,text 是一个函数,因此您需要添加括号:

var result = {
title: $('.wikitable').text(),
myValue: $('a[href]').text(),
};

但请注意,这可能不会达到您的预期 - 它会返回所有匹配元素的文本。您可能需要使用 jQuery 的each() 函数 ( https://api.jquery.com/jquery.each/ ) 来迭代找到的元素,将其中的一些值推送到数组,然后从页面函数返回该数组。

关于javascript - 使用 Apify 进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60387528/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com