gpt4 book ai didi

php - 如何改进我的算法?/在格式化文本中搜索和替换单词/

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:34:35 24 4
gpt4 key购买 nike

我有一个 html 源和一组关键字。我试图在关键字数组中找到以任何关键字开头的所有单词,并将其包装在链接标记中。

例如,关键字数组有两个值:[ABC, DEF]。它应该匹配 ABCDEFDEFAD 等,并用超链接标记包装每个单词。

这是我目前得到的代码:

$_keys = array('ABC', 'DEF');
$text = 'Some ABCDD <strong>HTML</strong> text. DEF';

function search_and_replace(($key,$text)
{
$words = preg_split('/\s+/', trim($text)); //to seprate words in $_text
for($words as $word)
{
if(strpos($word,$key) !== false)
{
if($word.startswith($key))
{
str_replace($word,'<a href="">'.$word.'</a>,$_text);
}
}

}
return text;
}


for($_keys as $_key)
{
$text = search_and_replace($key,$text);
}

我的问题:

  1. 这个算法行得通吗?
  2. 我如何修改它以使用 UTF-8?
  3. 如何识别 html 中的超链接并忽略它们(不想在超链接中放置超链接)。
  4. 这个算法安全吗?

最佳答案

算法“正确”吗?(我读的是“准确”)

不,不是。自 str_replace functions as follows

a string or an array with all occurrences of search in subject replaced with the given replace value.

您正在匹配的字符串不是唯一被替换的字符串。使用你的例子,如果你对你的数据集运行这个函数,你最终会包装每一次出现的 ABC在多个标签中(只需运行您的代码即可查看它,但您必须修复语法错误)。

使用 UTF-8 字母表

不确定,但正如所写,我不这么认为。参见 Preg_Replace and UTF8 . PREG 函数应该是多字节安全的。

我想忽略每个标签中的所有单词以进行搜索操作

这太难了。你必须避免 <a ...>word</a> ,这很快就会把事情搞得一团糟。可靠地匹配 HTML 的正则表达式是徒劳的。

可能最好的方法是将网页解释为 XML 或 HTML。您是否考虑过在 javascript 中执行此操作?为什么在服务器端做? JS 的优势有两个——第一,它在客户端运行,因此你可以卸载/分发工作;第二,由于 DOM 已经被解释,你可以很容易地找到所有文本节点并替换它们。事实上,我正在帮助一个 friend 做 chrome extension to to almost exactly what you're describing ;你可以修改它来轻松地做你正在寻找的事情。

更好的替代方法?

当然。您在这里展示的是执行此操作的最糟糕方法之一。我会插入你使用 preg_replace (另一个答案为您想要的正则表达式提供了一个良好的开端,匹配单词中断而不是空格)但是由于您想避免更改某些元素,我现在认为在 JS 客户端中执行此操作要好得多。

关于php - 如何改进我的算法?/在格式化文本中搜索和替换单词/,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22593749/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com