gpt4 book ai didi

c# - 以文化中立的方式将字符串拆分为单词

转载 作者:行者123 更新时间:2023-11-30 12:16:16 24 4
gpt4 key购买 nike

我想出了下面的方法,旨在将可变长度的文本拆分为一个单词数组,以进行进一步的全文索引处理(停用词删除,然后是词干分析器)。结果似乎还不错,但我想听听意见,这个实现对不同语言的文本有多可靠。您会建议为此使用正则表达式吗?请注意,我选择不使用 String.Split(),因为这需要我传递所有已知分隔符的列表,而这正是我在编写函数时试图避免的

P.S:出于多种原因(Silverlight、项目范围的 Overkill 等),我无法使用像 Lucene.Net 这样的成熟的全文搜索引擎。

public string[] SplitWords(string Text)
{
bool inWord = !Char.IsSeparator(Text[0]) && !Char.IsControl(Text[0]);
var result = new List<string>();
var sbWord = new StringBuilder();

for (int i = 0; i < Text.Length; i++)
{
Char c = Text[i];

// non separator char?
if(!Char.IsSeparator(c) && !Char.IsControl(c))
{
if (!inWord)
{
sbWord = new StringBuilder();
inWord = true;
}

if (!Char.IsPunctuation(c) && !Char.IsSymbol(c))
sbWord.Append(c);
}

// it is a separator or control char
else
{
if (inWord)
{
string word = sbWord.ToString();
if (word.Length > 0)
result.Add(word);

sbWord.Clear();
inWord = false;
}
}
}

return result.ToArray();
}

最佳答案

既然你是以文化中立的方式说的,我真的怀疑正则表达式(单词边界:\b)是否可以。我用谷歌搜索了一下,发现 this .希望对你有用。
我很惊讶没有内置 Java BreakIterator等效...

关于c# - 以文化中立的方式将字符串拆分为单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5687357/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com