gpt4 book ai didi

.net - 有哪些技术/工具可用于发现文本 block 中的常见短语?

转载 作者:行者123 更新时间:2023-12-04 14:36:56 25 4
gpt4 key购买 nike

假设我有 100000 个电子邮件正文,其中 2000 个包含一个随意的常见字符串,例如“快速的棕色狐狸跳过懒惰的狗”或“lorem ipsum dolor sat amet”。我可以/应该使用哪些技术来“挖掘”这些短语?我对挖掘单个单词或短语不感兴趣。此外,我需要过滤掉所有邮件中我已经知道的短语。

例子:

string mailbody1 = "Welcome to the world of tomorrow! This is the first mail body. Lorem ipsum dolor sit AMET. Have a nice day dude. Cya!";
string mailbody2 = "Welcome to the world of yesterday! Lorem ipsum dolor sit amet Please note this is the body of the second mail. Have a nice day.";
string mailbody3 = "A completely different body.";
string[] mailbodies = new[] {mailbody1, mailbody2, mailbody3};
string[] ignoredPhrases = new[] {"Welcome to the world of"};

string[] results = DiscoverPhrases(mailbodies, ignoredPhrases);

在这个例子中,我希望 DiscoverPhrases 函数返回“lorem ipsum dolor sat amet”和“have a nice day”。如果该函数还返回较短的“噪音”短语,这并不重要,但如果可能的话,最好在此过程中消除这些短语。

编辑:我忘记在示例中包含 mailbody3。

最佳答案

看看N-grams .最常见的短语必然会贡献最常见的 N-gram。我会从单词三元组开始,看看它会引向何处。 (所需的空间是文本长度的 N 倍,所以不能让 N 变得太大。)如果您保存位置而不只是一个计数,那么您可以查看是否可以扩展三元组以形成常用短语。

关于.net - 有哪些技术/工具可用于发现文本 block 中的常见短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1426383/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com