- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道如何在 PHP 中生成一个随机的逻辑单词列表。
我有一个充满英文单词 (A - Z) 的 MySQL 数据库,我想生成符合每个单词的逻辑单词。
例如:在我的单词列表中,数字 26 是“abandon”,我想为这个单词生成一个单词,可能使用正则表达式或其他东西,这样我就可以使用它来回翻译整页单词。
直接使用随机词的问题在于它们看起来不够真实,因此“abandon”可能会变成(纯粹随机生成的)“qdbskp”或类似的东西。问题是这个词看起来一点也不真实,看起来就像有人用脸猛击键盘。
但是我想要一些逻辑,所以也许有一些元音和辅音使这个词看起来“真实”。
希望我的解释是正确的。
谢谢。
TLDR:我正在尝试创建一个随机生成的单词词典,其中包含指向具有某种逻辑的英语单词列表的链接,因此这些单词看起来很真实。
最佳答案
让一个词看起来有点合乎逻辑的是,如果它是按照您习惯看到的顺序由字符组成的。一种方法是使用 trigrams 的加权列表- 3 个字符的序列。
基本上,您可以使用任意两个字母,例如“so”,然后添加另一个通常跟在它后面的字母,例如“l”。然后取最后两个字母“ol”,然后找出后面的内容。冲洗/重复,直到你得到一个你想要的任何长度的单词 - “solverom”。
采购自 Peter Norvig's n-gram data (它本身是从 Google books ngrams 编译的),我在 github 上整理了一些 json 文件。 .我会直接在此处包含数据,但特别是 trigrams.json 有点大,约为 128KB。
数据实际上可以从任何字典或其他庞大的单词列表中编译,并且结构如下...
[0,26,622,4615,6977,10541,13341,14392,13284,11079,8468,5769,3700,2272,1202,668,283,158,64,40,16,1,5,2]
这个已经完成了。它是不同单词长度的(0 索引)分布。每个索引是单词长度,每个值是找到了多少个该长度的单词。因此,例如,有 4615 个不同的单词,长度为 3 个字符。
我们将使用它来决定我们的新单词应该有多长。基本上我们将所有值相加,在 1 和总数之间选择一个随机数,然后找到它在集合中的位置。该元素的关键是单词的长度。
{
"TH": "82191954206",
"HE": "9112438473",
"IN": "27799770674",
"ER": "324230831",
...
这个结合了双字母组合、两个字符的组合,以及它们出现在单词开头的频率。是的,一切都是大写字母。
我们将使用它来决定以什么开头。
{
"TH": {
"E": "69221160871",
"A": "9447439870",
"I": "6357454845",
"O": "3369505315",
"R": "1673179164",
...
},
"AN": {
"D": "26468697834",
"T": "3755591976",
"C": "3061152975",
...
这个比较有趣。此数据集中的每个键都是一个二元组,其中包含一个字符数组以及该字符在其后出现的频率。
“D”经常出现在“AN”之后。
这就是我们将用来构建单词其余部分的内容。
首先我们需要一些实用函数。
function gmp_rand($min, $max) {
$max -= $min;
$bit_length = strlen(gmp_strval($max, 2));
do {
$rand = gmp_init(0);
for ($i = $bit_length - 1; $i >= 0; $i--) {
gmp_setbit($rand, $i, rand(0, 1));
if ($rand > $max) break;
}
} while ($rand > $max);
return $rand + $min;
}
因为我们需要生成的一些数字可能大于PHP_INT_MAX
我们将使用 PHP GMP extension对付他们。足够简单 rand()
像工作一样。
function array_weighted_rand ($list) {
$total_weight = gmp_init(0);
foreach ($list as $weight) {
$total_weight += $weight;
}
$rand = gmp_rand(1, $total_weight);
foreach ($list as $key => $weight) {
$rand -= $weight;
if ($rand <= 0) return $key;
}
}
这很像内置的 array_rand()
因为你传递给它一个数组,它会返回一个随 secret 钥。采摘时只有这一项会影响重量。
因此,如果您传入一个如下所示的数组:
array (
'foo' => 2,
'bar' => 4,
'baz' => 12
)
它返回 bar
的频率大约是 foo
的两倍,baz
大约是 的三倍>条形图
。
function fill_word ($word, $length, $trigrams) {
while (strlen($word) < $length) {
$word .= array_weighted_rand($trigrams[substr($word, -2)]);
}
return $word;
}
这需要一个字符串 $word
并将其从给定的 $trigrams
集合中填充到 $length
。它根据字符串中的最后两个字符从数据集中挑选的每次迭代。
$lengths = json_decode(file_get_contents('distinct_word_lengths.json'), true);
$bigrams = json_decode(file_get_contents('word_start_bigrams.json'), true);
$trigrams = json_decode(file_get_contents('trigrams.json'), true);
for ($i = 0; $i < 10; $i++) {
do {
$length = array_weighted_rand($lengths);
$start = array_weighted_rand($bigrams);
$word = fill_word($start, $length, $trigrams);
} while (!preg_match('/[AEIOUY]/', $word));
$word = strtolower($word);
echo "$word\n";
}
我们正在做的是获取随机长度和随机二元组作为单词的开头,然后将其填充。 preg_match()
只是为了验证单词是否包含元音,否则无法保证。如果没有,请重试。
您可以将其替换为您可能想要执行的任何类型的验证,例如确保它不匹配您数据库中的真实单词或其他内容。
是的,您可能会生成一个真实的单词。如果您想说这是您编造的,只需发音不同即可。
运行几次后我得到了这些:
ancover ingennized plesuri asymbablew
orkno oftedi nestrat arlysect
welvency thembe therespaid frokedgerition
judeth ist rectede privede
aprommautu offeleal townerislo callynerly
thentsi perma themenum agesputherflone
pecticangenti whoult ifileyea onster
flatco powne prative betion
inegansith meraddin theste mysistai
skerest uppre ongdonc hadmints
我的拼写检查器讨厌所有这些。
完整的数据和代码可以从github获取.
关于php - 我怎样才能生成一个随机的逻辑词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25966526/
当我尝试加载库 Raster 时,我收到如下错误: 错误:inDL(x, as.logic(local), as.logic(now), ...) 中的“raster”的包或命名空间加载失败:无法加载
当我尝试加载库 Raster 时,我收到如下错误: 错误:inDL(x, as.logic(local), as.logic(now), ...) 中的“raster”的包或命名空间加载失败:无法加载
望着help section about_Comparison_Operators of PowerShell我是这样理解的: PS C:\> $false,$false -eq $true PS C
我刚刚修改了旧代码,现在似乎没有任何效果。请您指导我哪里出错了。 一些不起作用的事情是: 以前,焦点始终停留在屏幕上唯一的输入字段上。 (现在不行了),代码中的 if else 条件也不起作用。 On
请帮我找到一个使用普通 'ol javascript 的解决方案(我无法使用外部框架)。此外,CSS :hover 选择器不适用于现实世界的实现。 注册事件发生的事情设置所有调用最后注册事件数组项。
我想创建一个软件来为残障 child 交通规划公交路线(及其最佳载客量)。 这些总线具有以下规范: m 个座位(最多 7 个 - 因为有司机和助理) o 轮椅“座位”(最多 4 个) 固定的最大负载量
有人能帮我吗?似乎我的 for 逻辑根本不起作用,因为它一直在上午 12:00 返回我的开始时间 这是我的代码 Sub forlogic() Dim i As Single Dim t
我正在尝试设置 OR两个切片器过滤器之间的逻辑。两个切片器来自相同的数据集。以下是更多详细信息: 我的源表: 带切片器的视觉效果: 我的目标是,如果我从切片器 1 和切片器 2 中选择任何值,我的视觉
我有以下 C 语句: int res = x & (x ^ y); 有没有办法做同样的事情,但每次只使用一次x和y? 例如: x | (~x & y) == x | y 最佳答案 是的,通过扩展 xo
我正在创建 Azure 逻辑应用程序以将新的 Sharepoint 文件添加到 Azure Blob。 Sharepoint 由我的公司运行,我使用我的凭据登录来为逻辑应用程序创建 Sharepoin
我有一个问题要求为给定函数合成最简单的乘积表达式总和。基本上,如果 AB == CD,则函数为 1,否则为 0,结果如下: (!A && !B && !C && !D) || (!A && B &&
我正在尝试确定是否可以在不溢出的情况下计算两个 32 位整数的总和,同时仅使用某些按位运算符和其他运算符。因此,如果整数 x 和 y 可以相加而不会溢出,则以下代码应返回 1,否则返回 0。 ((((
处理乍一看需要许多嵌套 if 语句的复杂业务逻辑的好方法是什么? 例子: 折扣券。可能: 1a) 超值折扣 1b) 百分比折扣 2a) 正常折扣 2b) 累进折扣 3a) 需要访问优惠券 3b) 不需
假设我有一个“numbers”对象数组,其中包含“startNo”整数和“endNo”整数。 数组中可以有多个“数字”,我想获取一个包含修改对象的新数组,该数组仅具有不重叠的范围。 例如:如果数组有:
我在这个问题上遇到了困难。我正在使用 JavaScript。 我有一个文本区域,用于检测 @ 输入并将其位置存储在数组中。 var input = "@a @b @c" //textarea var
默认 IN 使用 OR 基本逻辑。有没有办法在范围内使用 AND 基本逻辑。 例如下面的查询 SELECT ItemId,CategoryID FROM ItemCategories WHERE Ca
我想在您将鼠标悬停在网站图像上时添加叠加层。我在这里实现了这个,它工作正常http://jsfiddle.net/stujLbjh/ 这是js代码: var divs = document.query
这个问题在这里已经有了答案: Which is faster: x>2 是否比 x>>31 快?换句话说,sar x, 2 是否比 sar x, 31 快?我做了一些简单的测试,他们似乎有相同的速度
我有grails criteriaQuery,我在这里再次检查OR逻辑,就像这样一个状态变量: or { eq("status", Status.ONE) eq("status",
我有grails criteriaQuery,我在这里再次检查OR逻辑,就像这样一个状态变量: or { eq("status", Status.ONE) eq("status",
我是一名优秀的程序员,十分优秀!