gpt4 book ai didi

python - 在python中转换为阿拉伯文文本

转载 作者:行者123 更新时间:2023-11-29 09:56:23 25 4
gpt4 key购买 nike

我的 mysql 表中有数据,字符集为 utf-8。我有一个 pyspark 脚本,它加载 mysql 数据并在 s3 存储桶中写入 parquet 文件。从 mysql 获取数据时,我在下面获取数据格式:

'الشرقية'

然后我将其转换为 utf-8 编码,得到以下 unicode 字符串:

'\xc3\x98\xc2\xa7\xc3\x99\xe2\x80\x9e\xc3\x98\xc2\xb4\xc3\x98\xc2\xb1\xc3\x99\xe2\x80\x9a\xc3\x99\xc5\xa0\xc3\x98\xc2\xa9'

之后我将其解码为 mac_arabic 编码,然后我得到以下文本:

'أ»آ'أôقÄûأ»آ٤أ»آ١أôقÄöأôإ أ»آ)'

有没有一种方法可以从这些字符串中的任何一个生成阿拉伯文本。

下面是代码

sqlContext = SQLContext(sc)
df = sqlContext.read.format("jdbc").options(
url="jdbc:mysql://localhost/db_name",
driver="com.mysql.jdbc.Driver",
dbtable="table",
user="root",
password="root"
).load()

df.show()

对于下表中的列,设置了配置:字符集 utf8mb4 整理 utf8mb4_unicode_ci 默认 NULL

对于数据库设置以下配置:ENGINE=InnoDB AUTO_INCRMENT=42627 默认字符集=latin1

提前致谢。

最佳答案

您的平台上的 JDBC 驱动程序版本默认不使用 UTF-8 编码。正如上面的评论中所述,尝试将编码显式传递给驱动程序:

df = sqlContext.read.format("jdbc").options(
url="jdbc:mysql://localhost/db_name?characterEncoding=utf8",
driver="com.mysql.jdbc.Driver",
dbtable="table",
user="root",
password="root").load()

关于python - 在python中转换为阿拉伯文文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53763269/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com