gpt4 book ai didi

c# - 用于从推文中提取单词、名称、主题标签和短语的正则表达式

转载 作者:行者123 更新时间:2023-11-30 15:40:51 25 4
gpt4 key购买 nike

我正在使用 Twitter 提要来整理各种推文中的单词、名称、主题标签和短语。

我假设名称是几个以大写字母开头的单词,主题标签是 # 后跟除空格之外的所有内容,短语是引号内的内容,单词是单词。

也可以拉出任何链接,但这不是必需的。

我想使用正则表达式,但如果有更好的解决方案,我想知道。

Twitter 帖子示例:

You know you watch a lot of Wes Anderson films when you see his new trailer and think, "Wait, where's the Futura font?" #MoviesILike http://bit.ly/HklUk

会拆分 Wes Anderson等等,Futura 字体在哪里?#MoviesILike 和所有单词

我现在正在玩的正则表达式是:

Regex _wordRegex = new Regex(@"(?:\""(?<Item>.*?)\"")|(?<Item>(?:[A-Z][a-z]*?[.\s])+)|(?<Item>#\S+)|(?<Item>\w+)");

最佳答案

我已经处理了我应得的 Twitter 数据。我发现最好的方法是用空格标记消息字符串,然后分析每个标记。这工作得很好......让我们看看案例:

@bobjones let's go watch the game at @hooters #nfl #broncos #tebow

对于 @# 标记,您只需检查第一个字符。对于 URL,您可能想在那里使用正则表达式做一些事情。所以基本上:

if token[0] == '@' then mention
else if token[0] == '#' then hashtag
else if token looks like a url then url
else then word

在我看来,在这种情况下无需使用正则表达式使事情复杂化。特别是当您希望从同一个字符串中提取不同类型的内容时。

您在引号中提到了一些事情...您可能希望将其作为标记化中的一个极端情况来处理。

关于c# - 用于从推文中提取单词、名称、主题标签和短语的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8855535/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com