gf - 英语中的随机短语生成和性别/人类一致性-6ren

gf - 英语中的随机短语生成和性别/人类一致性

转载作者：行者123 更新时间：2023-12-04 08:00:53

28

4

我正在尝试为莫尔斯电码培训师生成随机的英语练习短语。我想弄清楚如何用英语处理性别协议(protocol)。我希望能够生成诸如“他是儿子”、“她是母亲”、“这是一扇门”之类的短语，但要避免诸如“他是母亲”、“她是一扇门”之类的词组， “这是一个父亲”。 “他是母亲”混合了性别，“她是一扇门”和“它是父亲”这样的句子混合了人类/非人类。似乎在 rgl 中，人类和非人类有 Gender类型。
有时这种事情是可以接受的，例如“没有人是一座孤岛”这句话。而且，出于某种原因，性别揭露派对经常使用诸如“它是男孩!”之类的短语。但是，我只是想生成训练数据，所以我试图专注于常见用法。
我对语法框架很陌生，所以我可能完全错误地处理这个问题。这是我到目前为止所拥有的，
在 Agreement.gf

abstract Agreement = {

flags startcat = Message ;

cat
  Message ; Subject ; SubjectComplement ;
fun
  Is  : Subject -> SubjectComplement -> Message ;
  He, She, It  : Subject;
  Son, Daughter, Father, Mother, Fence, Door : SubjectComplement;
}

在 AgreementEng.gf

concrete AgreementEng of Agreement = open DictEng, SyntaxEng, ParadigmsEng, VerbEng, ResEng in {
lincat
  Message  = Cl ;
  Subject  = NP;
  SubjectComplement = CN;
lin
  Is s sc = mkCl s sc;
  He  = DictEng.he_Pron;
  She = DictEng.she_Pron;
  It = DictEng.it_Pron;
  Son = mkCN son_N;
  Daughter = mkCN daughter_N;
  Mother = mkCN mother_N;
  Father = mkCN father_N;
  Fence  = mkCN fence_N;
  Door  = mkCN fence_N;
}

如果我将它加载到 gf并运行 generate_random | linearize ，它有效，但忽略了性别和人性。
我在 DictEng 中看到了代词有一些性别/非人类标记，

lin she_Pron = mkPron "she" "her" "her" "hers" singular P3 feminine ;
lin he_Pron = mkPron "he" "him" "his" "his" singular P3 masculine ;
lin it_Pron  = mkPron "it" "it" "its" "its" singular P3 nonhuman;

虽然不是大多数名词，

lin mother_N = mkN "mother" "mothers";
lin daughter_N = mkN "daughter" "daughters";

虽然有些确实有性别标记，

lin actor_N = mkN masculine (mkN "actor" "actors");
lin actress_N = mkN feminine (mkN "actress" "actresses");

你会如何处理这个问题？
我愿意接受有关本准则任何方面的建议——不仅仅是性别问题。我的总体目标是生成越来越复杂、含糊不清的英语短语。想想 Duo Lingo——但对于摩尔斯电码。我将有一堆训练级别，这些级别建立在以前的级别之上，添加新词汇、更长的句子等。
目前，我不关心非英语语言——这对 future 的我来说是个问题。我也不需要支持 DictEng 中的所有内容.潜在的单词和短语列表将被手工整理。
使用目前显示的内容，我将从训练单个单词开始，“他”、“她”、“它”、"is"、“儿子”等。
然后是简单的短语“他是”，“她是”，“它是”。
然后最后像“他是儿子”这样的完整句子。
然后我会添加复数，“我们”，“他们”，"is"，“儿子”等。然后我会单独训练新词。然后是“我们是”，“他们是”等短语。然后是“我们是父亲”的句子。然后我会混合单数和复数的句子。
因此，在语法文件中，我需要生成这些不同类型的训练短语的粒度。
谢谢!
(不确定这是否重要，但我有几十年的 Haskell 经验，并且涉足 Idris 之类的东西。所以我认为我对语法框架语言很好——我的麻烦更多在于理解库(rgl)和大局)。

最佳答案

RGL Gender参数仅控制诸如“她看到自己/他看到自己/树看到自己”之类的东西，但没有比这更语义的了。所以如果你想控制你的句子是否有意义，那么你需要添加一个自定义参数。
这是一个有效的具体语法，因为它不会线性化性别不匹配的组合。
(顺便说一句，我用 Cl 替换了你的 S ，因为 Cl 对时态、极性、情绪等开放，而英语恰好在 GF shell 中输出现在指示符，但你不能相信这种情况会发生在其他语言。)

concrete AgreementEng of Agreement = open DictEng, SyntaxEng, ParadigmsEng, Prelude in {
lincat
  Message  = S ;
  Subject  = {np : NP ; g : HumanGender} ;
  SubjectComplement = {cn : CN ; g : HumanGender} ;

param
  HumanGender = M | F | Inanimate ;

lin
  Is s sc = case <s.g, sc.g> of {
    <Inanimate,Inanimate>
    |<M,M>
    |<F,F> => mkS (mkCl s.np sc.cn) ;
    _      => noS
    } ;
  He  = {np = he_NP ; g = M} ;
  She = {np = she_NP ; g = F} ;
  It = {np = it_NP ; g = Inanimate} ;
  Son = mkSubjCompl son_N M ;
  Daughter = mkSubjCompl daughter_N F;
  Mother = mkSubjCompl mother_N F ;
  Father = mkSubjCompl father_N M ;
  Fence  = mkSubjCompl fence_N Inanimate ;
  Door  = mkSubjCompl door_N Inanimate ;

oper
  mkSubjCompl : N -> HumanGender -> {cn : CN ; g : HumanGender} = \n,g ->
    {cn = mkCN n ; g = g} ;

  noS : S = mkS (mkCl (mkN nonExist)) ;
}

本操作 noS由 nonExist token 制成，这只会导致异常并且不打印任何内容。因此，当您生成所有树并将它们线性化时，您会得到以下结果:

Agreement> gt  | l
he is a father
he is a son
it is a door
it is a fence
she is a daughter
she is a mother

但是如果你这样做 gt | l -treebank ，您会看到它生成了更多的树，但只是没有线性化这些树，其中 HumanGender s 不匹配。
对于更柔和的选项，您可以让它输出句子(例如“她是父亲”)，但在末尾附加一些内容。这是另一种方法，第一个具体输出所有内容，但您有第二个具体用于合理性过滤: https://github.com/michmech/plausibility#readme
最后，阅读 this blog post 可能会很有趣。 .它与您的问题没有直接关系，但它提供了一些如何在 GF 中思考事物的一般哲学。

关于gf - 英语中的随机短语生成和性别/人类一致性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66478917/

28

4

0

文章推荐： javascript - context.createConicGradient 不是函数

文章推荐： reactjs - Aria-hidden 不会从查询中隐藏元素

文章推荐： r - 如何在R中使用tabyl交叉表4个变量

英语.Net多语言开发中的问题
问题与现象多语言开发是一件成本很高的事情。很多公司会退而求其次选择只开发英文版本的软件分发到不同国家，但这里仍存在不同问题。我们就遇到了这样的问题，参考下面的代码。 CultureInf
MySQL 英语、波兰语和德语排序规则
在我的 codeigniter 项目中，我使用 MySQL 作为数据库。它的排序规则是“latin1_swedish_ci”。现在我需要扩展我的网站，除了“英语”之外还存储“波兰语”、“德语”、“法语
java - 英语 - 莫尔斯翻译器
从摩尔斯语翻译成英语就像一个魅力，但是将一个短语或句子(多个单词用空格分隔)从英语翻译成摩尔斯语只会产生翻译成摩尔斯语的第一个单词。例如，如果我输入“Hello World”，翻译器只会返回 '……
database - 英语、葡萄牙语和西类牙语的国家和国籍列表？
试图在谷歌上搜索一些提供英语、葡萄牙语和西类牙语国家和国籍列表的来源……没有运气。有人知道吗？一个多语言网站的链接，其中包含三种语言的任何这些列表的表格也很棒!! 最佳答案它在 unicode
html - 如何显示合并两种语言的文本(英语+阿拉伯语)
在过去的 15 天或更长时间里，我一直在为一个奇怪的问题而苦苦挣扎。实际上我有一些阿拉伯语文本，但也有一些英文文本。 MY NAME "some arabic text" "some arabic t
excel - 日期格式英语/法语
我有这种日期格式: Mon, Nov 19, 2018 我希望它采用法语短日期格式(DD/MM/YYY) 但我无法用excel的基本日期格式解决它。有任何想法吗？最佳答案您可以使用 MATCH
密码学。英语 "normal text"?
我被要求制作一个软件来加密和解密基于字母 frequencies 的“普通英语”文本。 . 问题是我在哪里可以找到一些与官方频率匹配的文本样本？到目前为止，我已经尝试过 "War and Peace
python - 如何在kivy中制作文件选择器以支持不同语言的文件(英语，希伯来语)
我正在使用 kivy 的文件选择器，当文件夹中有一个带有希伯来语名称的文件时，它会打印出乱码......如果可能的话，我想支持不同的语言。尝试更改文件选择器中的字体名称，对我来说不起作用。你能帮我找出
javascript - 如何在弹出窗口中选择语言(英语/法语)？
Popup Click me to toggle the popup! A Simple Popup! // When the user clicks on div, open the po
python - NLTK - 缺少停用词 - 英语
我刚刚下载了最新的 NLTK 版本及其所有资源。我看到 could 和 would 没有被列为停用词。但是 should 被视为停用词。这是某种已知错误还是...？ In [7]: import
android - 我怎么知道键盘语言？ (英语/法语)
我开发了一个短信发送器应用程序，我想知道用户使用的语言。那么，当用户键入一条消息时，我如何知道他/她使用的语言？最佳答案通过使用获取输入类型管理器: InputMethodManager imm
php - 如何编写正则表达式来匹配阿拉伯语、英语、数字和空格字符？
在 PHP 中使用正则表达式，如何让用户输入阿拉伯语、英语、数字、_、- 或空格。例如，用户可以输入以下字符串: 10-abc 10-米 10-abcmo _abcمن-10 最佳答案要检查您可以
c# - 希伯来语、英语、符号的正则表达式
作为我正在编写的一个小程序的一部分，我需要过滤一个可能是“gibrish”的字符串输入(UTF8 中的任何符号)输入可以是希伯来语和/或英语，但也有所有正常的符号，如:?%$!@'_' 等等... 一
translation - 俄语-英语 Multitran 词典
也许有人知道从中检索翻译的最佳方式是什么。是否有用于阅读 Multitran 词典数据库的图书馆？我的目标是一个简单的程序，它将检索给定的俄语单词的英文翻译。最佳答案也许你可以使用 StarDic
windows - Google Chrome在Windows 10(英语)中使用哪些默认字体？
在 chrome://settings/fonts 什么是标准字体，衬线字体，无衬线字体和固定宽度字体？对于不使用Windows但希望尽可能使用相同(或相似)设置的用户，这是必需的。最佳答案 St
python - NLTK 荷兰语 alpino 至英语
我正在尝试查找四元组英语单词，我尝试更改 alpino，它将荷兰语单词下载为 en 或英语，但它不起作用任何想法？ from nltk.util import ngrams from nltk.cor
java - 我们如何存储任何文本语言(英语、印地语、西类牙语等)并从数据库中检索相同的值
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 8 年前。我们允许用户在文本字段中输入任何语言，并将该值存储在数据库中，当用户在浏览器中查
ruby-on-rails - “英语”全局变量在 Rails 中不起作用
我正在尝试在 Rails 中使用英语 gem，因此我可以访问 $LAST_MATCH_INFO，$~ 的隐秘版本。然而，尽管需要英语，$LAST_MATCH_INFO 始终是 nil，而 $~ 仍然有
python - (英语、Perl、Python、Ruby)逐个代码片段进行比较？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
user-interface - 英语 UI 术语 : Directory, 还是文件夹？
当您设计应用程序时(假设使用英语)，并要求用户提供目录/文件夹的路径，您是否使用术语目录或文件夹? 其中一个比另一个更容易被理解吗？其中一个比另一个更“正确”吗？最佳答案请注意，它们不是同义词。目

首页

博学

6Ren·AI

商城

gf - 英语中的随机短语生成和性别/人类一致性