gpt4 book ai didi

r - 在 R 中使用 Quanteda 时,从文本语料库中删除非 ASCII 字符的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-02 08:24:42 27 4
gpt4 key购买 nike

我急需。我有一个语料库,已将其转换为通用语言,但有些单词未正确转换为英语。因此,我的语料库中有非 ASCII 字符,例如 U+00F8

我正在使用 Quanteda,并且我已使用以下代码导入了我的文本:

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

我的语料库包含 166 个文档。将文档导入 R 后,消除这些非 ASCII 字符的最佳方法是什么?

最佳答案

尝试:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

这会将编码转换为 ASCII,将任何不可翻译的字符(不在 0-127 ASCII 范围内的字符)替换为空。

关于r - 在 R 中使用 Quanteda 时,从文本语料库中删除非 ASCII 字符的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38182860/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com