英语以外语言的 Swift NSLinguisticTagger 结果-6ren

英语以外语言的 Swift NSLinguisticTagger 结果

转载作者：行者123 更新时间：2023-11-28 07:46:43

24

4

我目前正在查看 Swift 的 NSLinguisticTagger。出于测试目的，我使用了 appcoda Introduction to Natural Language Processing 中的代码.

对于英语语言，它按预期和教程中的描述工作。但是，当我在英语以外的语言上使用 NSLinguisticTagger 时，词形还原、词性识别和命名实体识别不会产生有用的结果。对于命名实体识别，我可以理解这一点，但对于前两个选项，我认为至少应该有一个基本结果。我是否错过了特定于语言的设置，或者 NSLinguisticTagger 仅适用于语言检测和标记化，当用于英语以外的语言时？

这是 Sai Kambampati 在他的教程中使用的代码:

import Foundation

let quote = "Here's to the crazy ones. The misfits. The rebels. The troublemakers. The round pegs in the square holes. The ones who see things differently. They're not fond of rules. And they have no respect for the status quo. You can quote them, disagree with them, glorify or vilify them. About the only thing you can't do is ignore them. Because they change things. They push the human race forward. And while some may see them as the crazy ones, we see genius. Because the people who are crazy enough to think they can change the world, are the ones who do. - Steve Jobs (Founder of Apple Inc.)"

let tagger = NSLinguisticTagger(tagSchemes:[.tokenType, .language, .lexicalClass, .nameType, .lemma], options: 0)
let options: NSLinguisticTagger.Options = [.omitPunctuation, .omitWhitespace, .joinNames]

func determineLanguage(for text: String) {
  tagger.string = text
  let language = tagger.dominantLanguage
  print("The language is \(language!)")
}

determineLanguage(for: quote)

func tokenizeText(for text: String) {
  tagger.string = text
  let range = NSRange(location: 0, length: text.utf16.count)
  tagger.enumerateTags(in: range, unit: .word, scheme: .tokenType, options: options) { tag, tokenRange, stop in
      let word = (text as NSString).substring(with: tokenRange)
      print(word)
  }
}

tokenizeText(for: quote)

func partsOfSpeech(for text: String) {
  tagger.string = text
  let range = NSRange(location: 0, length: text.utf16.count)
  tagger.enumerateTags(in: range, unit: .word, scheme: .lexicalClass, options: options) { tag, tokenRange, _ in
      if let tag = tag {
          let word = (text as NSString).substring(with: tokenRange)
          print("\(word): \(tag.rawValue)")
      }
  }
}

partsOfSpeech(for: quote)

func namedEntityRecognition(for text: String) {
  tagger.string = text
  let range = NSRange(location: 0, length: text.utf16.count)
  let tags: [NSLinguisticTag] = [.personalName, .placeName, .organizationName]
  tagger.enumerateTags(in: range, unit: .word, scheme: .nameType, options: options) { tag, tokenRange, stop in
      if let tag = tag, tags.contains(tag) {
          let name = (text as NSString).substring(with: tokenRange)
          print("\(name): \(tag.rawValue)")
      }
  }
}

namedEntityRecognition(for: quote)

对于英文句子，结果完全符合预期。

例如对于词性标注和命名实体识别:

确定者

麻烦制造者:名词

确定者

圆:名词

钉子:名词

...

苹果公司:名词

史蒂夫·乔布斯:个人姓名

Apple Inc.:组织名称

但是对于一个德语句子

let quote = "Apple führt die Hitliste der Silicon-Valley-Unternehmen an, bei denen sich Ingenieure das Wohnen in der Nähe nicht mehr leisten können. Dahinter folgen das Portal Reddit (San Francisco), der Suchriese Google (Mountain View) und die sozialen Netzwerke Twitter (San Francisco) und Facebook (Menlo Park)"

只有语言检测和标记化似乎工作正常。对于词性标注，只有“OtherWord”，对于命名实体识别，根本不返回任何结果:

苹果:OtherWord

führt: OtherWord

死亡:其他词

命中列表:OtherWord

...

有没有人尝试过用英语以外的其他语言使用这个类，或者它只在处理英文文本时才真正有用。除了应支持的语言列表之外，我找不到任何解释语言功能的 Apple 文档。还是我做错了什么？

非常感谢任何指向我解决方案的评论。

克里德

最佳答案

我没有测试您的上述情况，但我附上了以下用于开发词性标注器的内容。它包括 setLanguage 命令和 setOthography 命令。 (后者，我还没有试验过)。

我的理解是标记器是识别语言并在需要时切换语言或者可以设置。此处使用的逻辑似乎并未完全揭示。我已经确定，如果可以的话，我的最佳做法是设置语言。在此代码中，语言存储为字符串语言。 (顺便说一句，就我而言，它是通过阅读一份更大的文档来完成的，该文档也可用。)

最后，我在本周有机会看到了这一点。我在苹果商店(美国)处理另一件事，观察到另一位顾客正在测试手机并讨论想用法语发消息。该技术展示了如果 iMessage 继续看到法语，它将如何开始理解。观察到这一点，我的想法是它确实有效，但如果可能的话，如果可以在外部进行切换会更好。

    if let language = language {
    // If language has a value, it is taken as a specification for the language of the text and set on the tagger.
    let orthography = NSOrthography.defaultOrthography(forLanguage: language)
    POStagger.setOrthography(orthography, range: range)
    POStagger.setLanguage(NLLanguage(rawValue: language), range: range)
}

关于英语以外语言的 Swift NSLinguisticTagger 结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50787286/

24

4

0

文章推荐： swift - 更改 AVPlayerView 背景颜色

文章推荐： swift 4 Realm 根据 parent 姓名过滤子对象

文章推荐： html - 使用 CSS 使选项变灰

带有重载提取器的 Scala 语言？
至少在某些 ML 系列语言中，您可以定义可以执行模式匹配的记录，例如http://learnyouahaskell.com/making-our-own-types-and-typeclasses -
用于并发编程的 .NET 语言
这可能是其他人已经看到的一个问题，但我正在尝试寻找一种专为(或支持)并发编程而设计的语言，该语言可以在 .net 平台上运行。我一直在 erlang 中进行辅助开发，以了解该语言，并且喜欢建立一个稳
ide - 语言+ IDE教学高中生？
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
ipc - 语言/操作系统之间的进程间通信
我正在寻找一种进程间通信工具，可以在相同或不同系统上运行的语言和/或环境之间使用。例如，它应该允许在 Java、C# 和/或 C++ 组件之间发送信号，并且还应该支持某种排队机制。唯一明显与环境和语言
java - 使用正则表达式解析不同的语言环境/语言？
我有一些以不同语言返回的文本。现在，客户端返回的文本格式为(en-us，又名美国英语): Stuff here to keep. -- Delete Here -- all of this below
Julia 语言 : findInterval
问题:我希望在 R 中找到类似 findInterval 的函数，它为输入提供一个标量和一个表示区间起点的向量，并返回标量落入的区间的索引。例如在 R 中: findInterval(x = 2.6,
Java 语言 IllegalStateException
我是安卓新手。我正在尝试进行简单的登录 Activity ，但当我单击“登录”按钮时出现运行时错误。我认为我没有正确获取数据。我已经检查过，SQLite 中有一个与该 PK 相对应的数据。日志猫。
C#语言，计算器
大家好，感谢您帮助我。我用 C# 制作了这个计算器，但遇到了一个问题。当我添加像 5+5+5 这样的东西时，它给了我正确的结果，但是当我想减去两个以上的数字并且还想除或乘以两个以上的数字时，我没有
C 语言以二进制方式访问内存
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
C 语言 - 如何修复代码中的二分查找函数？
这就是我所拥有的 #include #include void print(int a[], int size); void sort (int a[], int size); v
C 语言我的代码中出现错误
你好，我正在寻找我哪里做错了？ #include #include int main(int argc, char *argv[]) { int account_on_the_ban
将数字读入数组时代码崩溃...C 语言
嘿，当我开始向数组输入数据时，我的代码崩溃了。该程序应该将数字读入数组，然后将新数字插入数组中，最后按升序排列所有内容。我不确定它出了什么问题。有人有建议吗？这是我的代码 #include #in
凯撒密码 C 语言
我已经盯着这个问题好几个星期了，但我一无所获!它不起作用，我知道那么多，但我不知道为什么或出了什么问题。我确实知道开发人员针对我突出显示的行吐出了“错误:预期表达式”，但这实际上只是冰山一角。如果有人
点对点聊天中程序的多个实例之间的通信 - C 语言
我正在编写一个点对点聊天程序。在此程序中，客户端和服务器功能写入一个唯一的文件中。首先我想问一下我程序中的机制是否正确？ I fork() two processes, one for client
计算不以句点结尾的段落，C 语言
基本上我需要找到一种方法来发现段落是否以句点 (.) 结束。此时我已经可以计算给定文本的段落数，但我没有想出任何东西来检查它是否在句点内结束。任何帮助都会帮助我，谢谢 char ch; FI
C 语言 -> 将段落中的单词分开
我的函数 save_words 接收 Armazena 和大小。 Armazena 是一个包含段落的动态数组，size 是数组的大小。在这个函数中，我想将单词放入其他称为单词的动态数组中。当我运行它时
比较两个字符 [C 语言]
我有一个结构 struct Human { char *name; struct location *location; int
C 语言 - 如何确保在读取多个输入文件时保持恒定格式？
我正在尝试缩进以下代码的字符串输出，但由于某种原因，我的变量不断从文件中提取，并且具有不同长度的噪声或空间(我不确定)。这是我的代码: #include #include int main (v
C 语言 - WHILE 循环的工作量超出了预期
我想让用户选择一个选项。所以我声明了一个名为 Choice 的变量，我希望它输入一个只能是 'M' 的 char 、'C'、'O' 或 'P'。这是我的代码: char Choice; printf
使用定义和变量连接数组 - C 语言
我正在寻找一种解决方案，将定义和变量的值连接到数组中。我已经尝试过像这样使用 memcpy 但它不起作用: #define ADDRESS {0x00, 0x00, 0x00, 0x00, 0x0

首页

博学

6Ren·AI

商城

英语以外语言的 Swift NSLinguisticTagger 结果