- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
非常感谢编辑我的问题标题和标签的帮助!
有时,我的“对话”语料库中的一位参与者会使用昵称(通常是缩写或拼写错误)来指代另一位参与者,但此后我只会说“昵称”。假设我愿意手动告诉我的软件我是否认为各种可能的昵称实际上是昵称,但我希望软件提供识别人的句柄和潜在昵称之间可能匹配的列表。我该怎么做?
关于我和我的语料库的背景:我没有进行自然语言处理的经验,但我是 R 的称职数据分析师。我的数据由 70 个团队生成,每个团队预测 100 个不同事件在 future 某个时间发生的可能性。结果我有 70 x 100 = 7000 个文本文件,其中包含参与者所做的预测流以及他们在预测中包含的评论。我将在下面粘贴其中一个文本文件的一小段,这与马里政府是否会与 MNLA 进行谈判有关:
02/12/2013 20:10: past_returns answered Yes: (50%)
I hadn't done a lot of research when I put in my previous placeholder... I'm bumping up a lot due to DougL's forecast
02/12/2013 19:31: DougL answered Yes: (60%)
Weak President Traore wants talks if MNLA drops territorial claims. Mali's military may not want talks. France wants talks. MNLA sugggests it just needs autonomy. But in 7 weeks?
02/12/2013 10:59: past_returns answered No: (75%)
placeholder forecast... http://www.irinnews.org/Report/97456/What-s-the-way-forward-for-Mali
最佳答案
这可能会像您想要的那样复杂。从事物的半语言方面来看,研究主题将包括 Levenshtein Distance (用于检测已知名称/昵称的轻微拼写错误)和 Named Entity Recognition (首先用于检测名称/昵称的任务)。实际上,NER 值得一读,但现有系统可能对您的论坛句柄和昵称领域没有多大帮助。
想到的第一个粗略想法是,您可以针对英语词典(可能是从维基词典编译的数据集或类似 WordNet 的数据集)运行语料库的标记化版本,以查找作为候选名称的单词,然后通过一些启发式方法(它们是否以与已知全名相同的字母开头?它们与已知名称的 Levenshtein 距离是否较低?它们是否使用过多次?)。
您还可以针对非单词标记尝试一些聚类或监督 ML 算法。这可能会揭示一些经常出现在与给定用户名相同的线程中的非“单词”标记;同样,启发式方法可以帮助排除一些误报。
祝你好运;听起来是个有趣的问题——希望我至少提到了一件你还没有想到的事情。
关于nlp:替代拼写识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16619923/
我想通过用语言环境拼写数字来本地化数字,最后使用了 ICU4J。我在许多地区都取得了成功,但似乎没有在格鲁吉亚、土耳其或阿拉伯语等地区完成。 ULocale locale = new ULocale(
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我正在研究具有端点的 swagger API 规范: /authorizations 我也想为这个端点定义一个替代拼写(授权)。这可能吗?或者我是否需要为每个拼写定义一个单独的路由? /authori
我使用 Yahoo BOSS 的时间很短。这是一个简单的搜索 API,但拼写建议支持确实不那么强大。周围的人是否有任何关于在 BOSS 上获得更好的拼写建议的想法。 最佳答案 不幸的是,甚至在几年后,
问题如下:我正在编写一个强力解密器来破解一些 super secret 代码(这是一场竞赛,而不是犯罪),结果证明这是不可能的:树中的节点太多需要被搜查。为了克服这个问题,我认为检查中间“解决方案”以
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我是一名优秀的程序员,十分优秀!