gpt4 book ai didi

php - 如何从文件中动态删除问号垃圾数据?

转载 作者:太空宇宙 更新时间:2023-11-04 14:19:37 25 4
gpt4 key购买 nike

我有未知数量的文件散布着垃圾数据,我想动态删除这些垃圾数据,也许使用正则表达式。

在浏览器中的 HTML 文件中通常看起来像这样:

this is the beginning of the file, ��

在文件中,它将如下所示:

this is the beginning of the file, xE2xA0

我尝试使用正则表达式编辑器将其删除,但没有用,它根本找不到它。我怎样才能删除这些垃圾数据?同样,一些文件具有各种 HTML 标记。

感谢您的帮助。

最佳答案

出现这些是因为您网站上的字符集有问题。

比如你的文件是用Unicode存储的,但是你的Content-Type设置为text/html;字符集=ISO-8859-1。问题还可能在于文本在数据库中的存储方式,或者文本在编程语言内部的表示方式。

与其试图剥离它们,不如让字符集正确。这通常是一个令人沮丧的过程,因为有很多点可能会引入问题。

你没有说你使用什么技术。一般可以通过搜索“字符集问题mysql”等具体技术如何解决字符集问题来寻找解决方案。

我建议使用命令行工具,例如 file 来检查存储文本文件的字符集,并使用 iconv 将文本文件从一种字符集转换为另一种字符集。

关于php - 如何从文件中动态删除问号垃圾数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15297285/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com