- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在研究一种方法来搜索文本中的特定单词并突出显示它们。该代码工作完美,除了我希望它也匹配相似的字母。我的意思是,搜索 fête 应该匹配 fêté、fete、...
有没有一种简单而优雅的方法来做到这一点?
这是我当前的代码:
$regex='/(' . preg_replace('/\s+/', '|', preg_quote($usersearchstring)) .')/iu';
$higlightedtext = preg_replace($regex, '<span class="marked-search-text">\0</span>', $text);
我的文本不是 html 编码的。在 MariaDB 中搜索匹配到相似的结果。
[编辑]这里有一个更长的问题示例:
$usersearchstring='fête';
$text='la paix fêtée avec plus de 40 cultures';
$regex='/(' . preg_replace('/\s+/', '|', preg_quote($usersearchstring)) .')/iu';
$higlightedtext = preg_replace($regex, '<span class="marked-search-text">\0</span>', $text);
结果是 $higlightedtext 与 $text 相同
当更改 $higlightedtext 单词“fêté”时,$higlightedtext 是
'la paix <span class="marked-search-text">fêté</span>e avec plus de 40 cultures'
但是,我希望它“始终”匹配字母的所有变体,因为可能存在(并且实际上)可能存在许多单词变体。我们在数据库中有 fête fêté,甚至可能有 fêté。
我一直在考虑这个问题,但我看到的唯一解决方案是拥有一个包含所有字母替换选项的巨大数组,然后遍历它们并尝试每个变体。但这并不优雅,而且会很慢。(因为对于许多字母,我至少有 5 个变体:aáàâä,结果是,如果这个词有 3 个元音,我需要做 75x (5x5x5) preg_replace。
[/编辑]
最佳答案
您的问题是关于整理的,这是一种处理自然语言文本以使用有关语言词汇规则的知识对其进行排序和比较的艺术。您正在寻找不区分大小写和不区分变音符的排序规则。
一个常见的归类规则是 B
在 A
之后
。一个不太常见但对您的问题很重要的规则是 ê
和 e
是等价的。 归类包含很多这样的规则,经过多年精心制定。如果您使用的是不区分大小写的排序规则,则需要像 a
这样的规则和 A
是等价的。
大多数欧洲语言(但不是西类牙语)的变音规则是: Ñ
和 N
是等效的。 在西类牙语中, Ñ
在 N
之后.
现代数据库都知道这些排序规则。例如,如果您使用 MySQL,则可以设置一个字符编码为 utf8mb4
的列。和 utf8mb4_unicode_ci
的整理.这对大多数语言都很好(但对西类牙语来说并不完美)。
Regex 技术对于整理工作不是很有用。如果您为此使用正则表达式,那么您就是在尝试重新发明轮子,而您很可能会重新发明漏气的轮胎。
PHP 与大多数现代编程语言一样,包含排序支持,内置于其 Collator class 中。 .下面是一个将 Collator 对象用于重音字符用例的简单示例。它使用 Collator::PRIMARY collation strength执行不区分大小写和重音的比较。
mb_internal_encoding("UTF-8");
$collator = collator_create('fr_FR');
$collator->setStrength(Collator::PRIMARY);
$str1 = mb_convert_encoding('fêté', 'UTF-8');
$str2 = mb_convert_encoding('fete', 'UTF-8');
$result = $collator->compare($str1, $str2);
echo $result;
$result
这里是零,意味着字符串是相等的。这就是您想要的。
如果您想通过这种方式在字符串中搜索匹配的子字符串,您需要使用显式子字符串匹配来实现。正则表达式技术不提供这一点。
这是一个进行搜索和注释的函数(例如,添加 <span>
标签)。它充分利用了 Collator 类的字符平等方案。
function annotate_ci ($haystack, $needle, $prefix, $suffix, $locale="FR-fr") {
$restoreEncoding = mb_internal_encoding();
mb_internal_encoding("UTF-8");
$len = mb_strlen($needle);
if ( mb_strlen( $haystack ) < $len ) {
mb_internal_encoding($restoreEncoding);
return $haystack;
}
$collator = collator_create( $locale );
$collator->setStrength( Collator::PRIMARY );
$result = "";
$remain = $haystack;
while ( mb_strlen( $remain ) >= $len ) {
$matchStr = mb_substr($remain, 0, $len);
$match = $collator->compare( $needle, $matchStr );
if ( $match == 0 ) {
/* add the matched $needle string to the result, with annotations.
* take the matched string from $remain
*/
$result .= $prefix . $matchStr . $suffix;
$remain = mb_substr( $remain, $len );
} else {
/* add one char to $result, take one from $remain */
$result .= mb_substr( $remain, 0, 1 );
$remain = mb_substr( $remain, 1 );
}
}
$result .= $remain;
mb_internal_encoding($restoreEncoding);
return $result;
}
下面是该函数的使用示例。
$needle = 'Fete'; /* no diacriticals here! mixed case! */
$haystack= mb_convert_encoding('la paix fêtée avec plus de 40 cultures', 'UTF-8');
$result = annotate_ci($haystack, $needle,
'<span class="marked-search-text">' , '</span>');
它回馈了
la paix <span class="marked-search-text">fêté</span>e avec plus de 40 cultures
关于php 正则表达式匹配类似于字母。又名 u=ü 或 ê=é=è=e,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40436672/
我想显示阿拉伯文字,但字符 المملك 显示。 例如,在 المملكة العربية السعودية 上显示单词 المملك٩ ا
我的应用程序正在 java + MSSQL 和 MySQL 上运行。下面的查询适用于 MSSQL,但不适用于 MySql。在 mysql 中,当我编写如下查询时,它给出了错误的结果 查询 select
根据 is_destructible 的定义( http://eel.is/c++draft/meta.unary.prop#lib:is_destructible ), is_destructib
我有一个数据库表,其中有一列我对波斯字母进行了分类,以便稍后使用 MySQL WHERE 选择。一切都适用于所有字母,但我在选择在数据库中存储为 (Ù†) 的字母 (?) 和存储为 (Ú†) 的 (?
我知道像这样的可选链接: someOptional?.someProperty 基本上是 someOptional.map { $0.someProperty } 但是,我发现同时做这两件事是不可能的
u-boot配置文件中的以下配置我看不懂 CONFIG_SYS_EXTRA_OPTIONS="SYS_SDRAM_SIZE=0x20000000" 好像在 u-boot 代码中设置 DRAM 大小。但
我对以下两个方法声明感到困惑: private T funWorks(T child, U parent) { // No compilation errors }
给定如下 API: class Bar { ... } class Foo extends Bar { ... } 在 Java 的 Optional 类型中,我们可以说: Optional fooO
我有一个文件,每行有两个字符: $ cat roman Ⅱ Ⅲ nut 当我用 sort -u 对这个文件进行排序时,只显示一行: $ sort -u roman Ⅱ Ⅱ是代码点U+2161,Ⅲ是代码
我正在尝试将 C 数组分配给 C++ std::array。 我该如何做到这一点,最干净的方式并且不制作不需要的拷贝等? 什么时候做 int X[8]; std::array Y = X; 我得到一个
我有以下案例类: case class [Q Length[T] 但是,我收到一条错误消息,说 需要三个参数,而我只给出了两个。我希望它像这样工作: type Area[T] = [Length[T
它是 well documented那个[T; n]可以强制到[T] .下面的代码也是well-formed : fn test(){ let _a: &[i32] = &[1, 2, 3];
我正在尝试使用 tweepy 在 Tkinter 窗口上显示我的 Twitter 时间线。这是代码 import tweepy import tkinter consumer_key = 'xxxxx
我正在使用以下包含 letter ü 的文本片段: test für fur test 代码如下: import re for m in re.finditer(r, line, re.IGNOREC
我对 USQL 很陌生,想知道如何在 select 语句中将“日期时间”转换为“日期”。另外,我如何摆脱毫秒和上午/下午?我真的很感激这方面的任何帮助。谢谢你们。 最佳答案 下面是有效的代码。注意括号
在 U-SQL 自定义代码(代码隐藏或程序集)中可以调用外部服务,例如bing搜索或 map 。 谢谢, 纳西尔 最佳答案 由于以下原因,目前不支持此功能: 想象一下,您编写了一个 UDF 或 UDO
我想 ping 出多个以太网端口。 u-boot 仅支持单个以太网端口是否存在固有限制? 最佳答案 Can u-boot support more than one ethernet port? 是的
我最近开始学习Prolog,但无法解决如何将三个列表合并的问题。 我能够合并两个列表: %element element(X,[X|_]). element(X,[_|Y]):-
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我是一名优秀的程序员,十分优秀!