gpt4 book ai didi

python - 在 Google-Colab 中使用 Python3 创建词云时应该如何使用 Arial 字体?

转载 作者:太空宇宙 更新时间:2023-11-04 11:21:38 26 4
gpt4 key购买 nike

我有一个推特文本数据集,它混合了英语、阿拉伯语和波斯语。我想用它创建一个词云。不幸的是,我的词云在照片中显示了阿拉伯语和波斯语单词的空方 block 。我碰巧听说了解决这个问题的三种方法:

  1. 使用不同的编码:我尝试了“UTF-8”、“UTF-16”、“UTF-32”和“ISO-8859-1”,但都没有解决问题

    <
  2. 使用 arabic_reshaper:无效

  3. 使用同时支持三种语言的字体,如“Arial”字体:尝试将字云中的字体更改为 Arial 时,我收到以下错误:

输入

wordcloud = WordCloud(font_path = 'arial',stopwords = stopwords, background_color = "white", max_font_size = 50, max_words = 100).generate(reshaped_text)

plt.imshow(wordcloud, interpolation='bilinear')

plt.axis("off")

plt.show()

输出

cannot open resource

此代码在 Anaconda 中运行良好,但在 Google-Colab 中运行不佳。唯一需要解决的是我应该在 Google-Colab 中为 font_path 输入什么路径

最佳答案

使用波斯语你需要解决三个问题:

  1. 波斯语字符显示不正确。这将通过我认为您已经解决的编码或字体来解决。
  2. 波斯字符出现但它们是分开的,在这种情况下你应该使用arabic_reshaperreshape函数。请记住,这并不能完全解决您的问题,您还需要执行第 3 步。
  3. 从左到右书写的波斯语单词,你应该用 python-bidi 库解决这个问题。

例如,我使用以下代码成功创建了词云:

import matplotlib.pyplot as plt
import arabic_reshaper
from bidi.algorithm import get_display
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

txt = '''I would love to try or hear the sample audio your app can produce. I do not want to purchase, because I've purchased so many apps that say they do something and do not deliver.

Can you please add audio samples with text you've converted? I'd love to see the end results.

Thanks!

سلام حال سلام سلام سلام حال شما چطوره است نیست

'''

word_cloud = WordCloud(font_path='arial', stopwords=STOPWORDS, background_color="white", max_font_size=50, max_words=100)
word_cloud = word_cloud.generate_from_text(get_display(arabic_reshaper.reshape(txt)))

plt.imshow(word_cloud, interpolation='bilinear')
plt.axis("off")
plt.show()

关于python - 在 Google-Colab 中使用 Python3 创建词云时应该如何使用 Arial 字体?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55855537/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com