gpt4 book ai didi

python - 如何使用 python 将波斯语文本保存在 csv 文件中?

转载 作者:行者123 更新时间:2023-12-02 02:06:52 25 4
gpt4 key购买 nike

我尝试使用以下脚本将我的数据集保存在 CSV 文件中:

with open(data_path+'Furough.csv', 'w',encoding="utf-8") as f0:
df = pd.DataFrame(columns=['title','poem','year'])
for f in onlyfiles:
poem=[]
title=""
year=0
with open(mypath+f,"r",encoding="utf-8") as f1:
for line in f1:
if line.__contains__("TIMESTAMP"):
year=int(line[12:15])
continue
if line.__contains__('TITLE'):
title=line[7:]
if line!="":
poem.append(line)
df = df.append({
'title': title,
'poem':poem,
'year': int(float(year))
}, ignore_index=True)
df.to_csv(f0, index=False,encoding='utf-8-sig')

但结果令人困惑,将一些未知字符写入 CSV 文件而不是波斯字符:谁能帮帮我?

我想将所有这些文件写入一个 CSV 文件中: enter image description here我在其中一个中拥有并想写的内容的示例:

[V_START] بر پرده‌های درهم امیال سرکشم [HEM]
نقش عجیب چهرۀ یک ناشناس بود [V_END]
[V_START] نقشی ز چهره‌ای که چو می‌جستمش به شوق [HEM]
پیوسته می‌رمید و بمن رخ نمی‌نمود [V_END]

[V_START] یک شب نگاه خستۀ مردی به روی من [HEM]
لغزید و سست گشت و همان ‌جا خموش ماند [V_END]
[V_START] تا خواستم که بگسلم این رشتۀ نگاه [HEM]
قلبم تپید و باز مرا سوی او کشاند [V_END]

但结果:

enter image description here

最佳答案

很可能您的文件是正确的,而 excel 正在使用另一种编码打开它。

也许插入一个 utf-8 BOM 可以强制 excel 将 csv 正确识别为 utf-8:

import codecs

with open(data_path+'Furough.csv', 'w',encoding="utf-8") as f0:
f0.write(codecs.BOM_UTF8)

# rest of your code

否则请参阅 how to open UTF-8 CSV file in Excel without mis-conversion 上的 Microsoft 帮助页面?
基本上是通过“从文本中获取数据”对话框来指定编码。

关于python - 如何使用 python 将波斯语文本保存在 csv 文件中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68313567/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com