gpt4 book ai didi

javascript - 如何获取用 iso-8859-1 编码的页面标题,以便标题在我的 utf-8 网站中正确显示?

转载 作者:行者123 更新时间:2023-11-30 06:31:57 25 4
gpt4 key购买 nike

我寻求帮助是因为我真的花了几个小时(超过 5 个)在网上寻找答案,但找不到合适的解决方案。

我的项目要求我删除外部网页的标题,但有时这些网页是用 iso-8859-1 编码的。

由于废弃的标题以 utf-8 格式显示在我的页面代码中,所以我得到的是 � 而不是 é、à、ê、ô 等字符 ...

所以有时我必须找到一种方法将标题从 iso-8859-1 转换为 utf-8。你能帮帮我吗?

我正在使用 Google Apps 脚本编写脚本,例如我使用提供的 API 用 Ja​​vaScript 编写代码来增强 Google 电子表格。

要废弃外部网页,我使用以下代码:

var result = UrlFetchApp.fetch( url );
var wholePage = result.getContentText();
var scrap = wholePage.match( /<title>(.*?)<\/title>/ );
var title = scrap[1];

如果废弃的页面是用 utf-8 编码的,但不是这个 url(例如),它会完美地工作: http://www.lexpress.fr/actualite/medias/cannes-pierre-lescure-et-jerome-clement-pressentis-pour-succeder-a-gilles-jacob_1254608.html

这是我在这个例子中得到的结果:

Cannes: Pierre Lescure et J�r�me Cl�ment pressentis pour succ�der � Gilles Jacob - L'EXPRESS

(是的,我是法国人)。

有人可以帮我解决这个问题吗?我将不胜感激。我试图提供尽可能多的信息,因为据说 Stack Overflow 上许多与编码问题相关的其他问题都错过了真实的上下文。

最佳答案

你在哪里显示内容更重要。如果您将其写入电子表格,则必须将电子表格的设置更改为正确的语言(法语)。此外,您可以使用高级参数指定原始内容所在的字符集。例如,

var result = UrlFetchApp.fetch( url , {contentType : 'text/html; charset=utf-8'});
var wholePage = result.getContentText();
var scrap = wholePage.match( /<title>(.*?)<\/title>/ );
var title = scrap[1];

关于javascript - 如何获取用 iso-8859-1 编码的页面标题,以便标题在我的 utf-8 网站中正确显示?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16943281/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com