gpt4 book ai didi

javascript - 在 Node.JS 中加载 EUC-JP 和其他日语文本编码

转载 作者:搜寻专家 更新时间:2023-10-31 23:56:16 34 4
gpt4 key购买 nike

我正在尝试为个人项目抓取一些日本网站。如您所料,带有 UTF-8 文本的站点工作得很好,但我无法从指定其他国际编码(特别是 EUC-JP)的站点中获取任何文本。 Node 似乎也在解释文本并执行修改而不是将其传递给原始 - 我尝试将响应设置为同时解释为 ascii 和二进制,然后将我的终端应用程序设置为 EUC-JP,但是在执行 console.log(),两者都不会产生实际的文本。

我浏览了 Node 文档,它似乎只支持两种主要的文本编码(二进制和 base64 除外。)

我正在使用内置的 http 客户端,并通过 response.setEncoding 方法指定编码,例如response.setEncoding('utf8');

其他人如何在 Node 中处理国际文本(尤其是原始数据不是 UTF-8 的情况?)二进制缓冲区是唯一的方法吗?

虽然我做了一些研究,但在字符编码方面我不是很了解,所以简单的答案将不胜感激。谢谢!

最佳答案

有一个模块添加了iconv bindings to node.js .如果您将响应作为二进制 Buffer 获取,则可以使用 Iconv.convert 将其从 EUC-JP 转换为 UTF-8(查看 README举个例子)。

关于javascript - 在 Node.JS 中加载 EUC-JP 和其他日语文本编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4778897/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com