gpt4 book ai didi

javascript - 从网站上给定 SKU 编号列表中提取产品名称的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-03 10:29:44 25 4
gpt4 key购买 nike

我有一个问题。

我有一个 SKU 编号(数百个)列表,我试图将其与其所属产品的标题进行匹配。我已经想到了几种方法来完成此任务,但我觉得我错过了一些东西......我希望这里有人有一个快速有效的想法来帮助我完成此任务。

产品来自 Aidan Gray。

尝试#1(批量编程方法)- 失败:

在 Aidan Gray 中搜索 SKU 后,网站返回如下所示的 URL:

http://www.aidangrayhome.com/catalogsearch/result/?q=SKUNUMBER

...“SKUNUMBER”显然是一个 SKU。

网页的第一个结果几乎总是产品。

要单击第一个结果(通过地址栏),可以输入以下内容(如果通过地址栏启用了 Javascript):

javascript:{document.getElementsByClassName("product-image")[0].click;}

我想通过命令提示符创建一个 .bat 文件并执行以下命令:

firefox http://www.aidangrayhome.com/catalogsearch/result/?q=SKUNUMBER javascript:{document.getElementsByClassName("product-image")[0].click;}

...但是 Firefox 似乎不允许这两个命令在同一个选项卡中执行。

如果有效,我将前往 http://tools.buzzstream.com/meta-tag-extractor ,粘贴生成的链接以获取页面标题,并将数据导出为 CSV 格式,然后复制我想要的数据。

不幸的是,我无法通过批处理程序在同一选项卡中同时打开网页和 Javascript。

尝试#2(我感觉很幸运的方法):

我打算使用 Google 的 &btnI 网址后缀自动重定向到第一个结果。

http://www.google.com/search?btnI&q=site:aidangrayhome.com+SKUNUMBER

打开选项卡中的所有链接后,我将使用名为“发送选项卡 URL”的 Firefox 插件将选项卡的名称(包含产品名称)复制到剪贴板。

问题是大多数结果都不够幸运......

如果有人有任何想法或技巧来完成此任务,我将非常感激。

最佳答案

我建议为此使用 JScript。很容易包含为 hybrid code在批处理脚本中,任何熟悉 JavaScript 的人都熟悉它的结构和语法,您可以使用它通过 XMLHTTPRequest(也称为 Ajax)来获取网页,并从 .responseText< 构建 DOM 对象 使用 htmlfile COM 对象。

无论如何,挑战:接受。使用 .bat 扩展名保存此文件。它将查找包含 SKU 的文本文件(每行一个),并获取并抓取每个 SKU 的搜索页面,将 .className 为“product-image”的第一个 anchor 元素中的信息写入到CSV 文件。

@if (@CodeSection == @Batch) @then

@echo off
setlocal

set "skufile=sku.txt"
set "outfile=output.csv"
set "URL=http://www.aidangrayhome.com/catalogsearch/result/?q="

rem // invoke JScript portion
cscript /nologo /e:jscript "%~f0" "%skufile%" "%outfile%" "%URL%"

echo Done.

rem // end main runtime
goto :EOF

@end // end batch / begin JScript chimera

var fso = WSH.CreateObject('scripting.filesystemobject'),
skufile = fso.OpenTextFile(WSH.Arguments(0), 1),
skus = skufile.ReadAll().split(/\r?\n/),
outfile = fso.CreateTextFile(WSH.Arguments(1), true),
URL = WSH.Arguments(2);

skufile.Close();

String.prototype.trim = function() { return this.replace(/^\s+|\s+$/g, ''); }

// returns a DOM root object
function fetch(url) {
var XHR = WSH.CreateObject("Microsoft.XMLHTTP"),
DOM = WSH.CreateObject('htmlfile');

WSH.StdErr.Write('fetching ' + url);

XHR.open("GET",url,true);
XHR.setRequestHeader('User-Agent','XMLHTTP/1.0');
XHR.send('');
while (XHR.readyState!=4) {WSH.Sleep(25)};
DOM.write(XHR.responseText);
return DOM;
}

function out(what) {
WSH.StdErr.Write(new Array(79).join(String.fromCharCode(8)));
WSH.Echo(what);
outfile.WriteLine(what);
}

WSH.Echo('Writing to ' + WSH.Arguments(1) + '...')
out('sku,product,URL');

for (var i=0; i<skus.length; i++) {
if (!skus[i]) continue;

var DOM = fetch(URL + skus[i]),
anchors = DOM.getElementsByTagName('a');

for (var j=0; j<anchors.length; j++) {
if (/\bproduct-image\b/i.test(anchors[j].className)) {
out(skus[i]+',"' + anchors[j].title.trim() + '","' + anchors[j].href + '"');
break;
}
}
}

outfile.Close();

太糟糕了,htmlfile COM 对象不支持getElementsByClassName。 :/但这在我的测试中似乎工作得足够好。

关于javascript - 从网站上给定 SKU 编号列表中提取产品名称的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29267846/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com