gpt4 book ai didi

php - 正确的字符编码

转载 作者:可可西里 更新时间:2023-10-31 23:26:17 25 4
gpt4 key购买 nike

我目前正在为各种文本数据抓取一个网站(当然是在获得许可的情况下)。我看到的问题是某些字符在此过程中未正确编码。这对于撇号 (') 尤为突出:导致字符,例如:.

目前,我使用以下代码从抓取的数据中转换各种 HTML 实体:

htmlentities($content, ENT_COMPAT, 'UTF-8', FALSE)

有没有更好的方法来处理这种事情?

最佳答案

HTML 实体有两个目标:

  • 转义在 HTML 中具有特殊含义的字符,例如角引号,以便它们可以用作文字。
  • 显示您正在使用的字符集不支持的字符,例如 ISO-8859-1 文档中的欧元符号。

它们不完全是一个编码工具。

如果你想从一种字符集转换成另一种字符集,我建议你使用 iconv() .但是,您必须知道源字符集和目标字符集。源字符集应在 Content-Type 响应 header 中提及,目标字符集是您在启动网站时决定的(尽管在您的情况下,UTF-8 看起来是最合理的选择)。

关于php - 正确的字符编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2375985/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com