php - Levenshtein - 分组酒店名称-6ren

php - Levenshtein - 分组酒店名称

转载作者：塔克拉玛干更新时间：2023-11-03 04:48:01

25

4

我必须根据名称将一些酒店归入同一类别。我正在使用 levenshtein 进行分组，但我已经尝试了多少，一些酒店被留在了他们应该属于的类别之外，或者在另一个类别中。

例如:所有这些酒店应该属于同一类别:

=============================

贝西左岸最佳西方酒店

贝斯特韦斯特科利塞

最佳西方勃艮第公爵

最佳西方福克斯通歌剧院

法国欧洲最佳西方酒店

悉尼歌剧院贝斯特韦斯特酒店

最佳西方巴黎卢浮宫歌剧院

德纽维尔贝斯特韦斯特酒店

=============================

我有一个包含所有酒店名称的列表(例如 1000 行)。我也有他们应该如何分组。知道如何优化 levenshtein，使其更适合我的情况吗？

$inserted = false;
foreach($hotelList as $key => $value){
    if (levenshtein($key, $hotelName, 2, 5, 1) <= abs(strlen($key) - strlen($hotelName))){
        array_push($hotelList[$key], trim($line));
        $inserted = true;
    }
}
// if no match was found add another entry
if (!$inserted){
    $hotelList[$hotelName] = array(
            trim($line)
        );
}

最佳答案

我会深入思考。首先，像这样对数据进行分组或“聚类”是一个很大的话题，我不会真正深入探讨它，但也许会指出一个理想的方向。

您通过根据所比较的字符串的长度对 Levenshtein 进行归一化来做了一件绝妙的事情 - 这是完全正确的，因为您避免了字符串长度在许多情况下过度确定相似性的问题。

但是算法并没有解决问题。首先，我们要比较单词。 “Bent Eastern French Hotels”显然与“Best Western French Hotels”截然不同，但比“Best Western Paris Bed and Breakfasts”得分更高。这里的直觉是你的标记不应该是字符，而是单词。

我喜欢@saury 的回答，但我不确定一开始的假设。相反，让我们从通常称为“bag of words”的好东西开始。然后我们实现一个 hashing技巧，这将允许您根据最少使用的单词包含最多信息的直觉来识别关键短语。

如果您同意酒店品牌名称位于开头附近的想法，您也可以始终歪曲它们与字符串开头的接近程度。问题是，您的团队很可能最终会成为“法国”而不是“最佳”/“西方”(但不是“酒店”- 为什么？)。

您想让您的结果更准确吗？

从现在开始，我们将不得不采取一些严肃的算法 - 享受浏览许多堆栈溢出主题。我的直觉是，我敢打赌，许多酒店名称都不是品牌，因此您也需要为它们设置不同的类别。而且我的直觉是也酒店名称中重复单词的数量将相对较少-一些单词将是酒店名称的常见成员。这些事实将成为上述问题。在这种情况下，有一种非常流行的(如果对 SO 来说是陈词滥调)技术称为 k-means，一个有趣的介绍是扩展像 this 这样的算法。 (非常勇敢地用 php 编写)将您选择的 n 个关键短语作为集群的 n 维，然后取集群的大多数组件center-points 作为你的分类标签。 (例如，这将消除“France”，因为“France”的点击将相当均匀地分布在 n 维空间中)。

对于看似小问题的事情来说，这可能有点繁重 - 但我想强调的是，如果您的数据不是结构化的，那么正确处理事情确实没有任何捷径.

关于php - Levenshtein - 分组酒店名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17466794/

25

4

0

文章推荐： algorithm - APL 中 X 指示的累积最大值

文章推荐： java - 是否可以使用 java 代码监视文件夹？

文章推荐： php - 涵盖输入日期范围所有日期的日期范围组合

php - 输出 PHP 分隔符 ()，PHP 不解释分隔符
我在 JavaScript 文件中运行 PHP，例如...... var = '';). 我需要使用 JavaScript 来扫描字符串中的 PHP 定界符(打开和关闭 PHP 的 )。我已经知道使
php - PHP 是否具有确定与给定 PHP 脚本兼容的最旧 PHP 版本的内置方法？还是会永远？
我希望能够做这样的事情: php --determine-oldest-supported-php-version test.php 并得到这个输出: 7.2 也就是说，php 二进制检查 test.
php - 在没有 php 框架的情况下将 php 框架用于现有的 php 应用程序是个好主意吗？
我正在开发一个目前不使用任何框架的大型 php 站点。我的大问题是，随着时间的推移慢慢尝试将框架融入应用程序是否可取，例如在创建的新部件和更新的旧部件中？比如所有的页面都是直接通过url服务的，有几
php - 如何在同一 php 页面上的其他 php 脚本中使用 php 变量
下面是我的源代码，我想在同一页面顶部的另一个 php 脚本中使用位于底部 php 脚本的变量 $r1。我需要一个简单的解决方案来解决这个问题。我想在代码中存在的更新查询中使用该变量。 $name)
php - PHP 重定向后 PHP 是否继续执行？
我正在制作一个网站，根据不同的情况进行大量 PHP 重定向。就像这样...... header("Location: somesite.com/redirectedpage.php"); 为了安全起见
php - 如何避免在 php 文件中写入
我有一个旧网站，我的 php 标签从因为短标签已经显示出安全问题，并且在未来的版本中将不被支持。关于php - 如何避免在 php 文件中写入

php - 需要建议通过 php 编辑 php
我有一个用 PHP 编写的配置文件，如下所示，所以我想用PHP开发一个接口(interface)，它可以编辑文件值，如$WEBPATH , $ACCOUNTPATH和 const值(value)观
php - 无法发布 “PHP file” PHP
我试图制作一个登录页面来学习基本的PHP，首先我希望我的独立PHP文件存储HTML文件的输入(带有表单)，但是当我按下按钮时(触发POST到PHP脚本) )我一直收到令人不愉快的错误。我已经搜索了S
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - PHP 数组键有大小限制吗？ PHP 数组一般有哪些限制？
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the max key size for an array in PHP? 正如标题所说，我想知道
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - 让函数在 php 刷新时执行 (PHP)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
php - 按时间段显示菜单 PHP PHP MySQL
我在 MySQL 数据库中有一个表，其中存储餐厅在每个工作日和时段提供的菜单。表结构如下: i_type i_name i_cost i_day i_start i_
php - 将参数发送到嵌套在 PHP 页面内的动态 PHP
我有两页。 test1.php 和 test2.php。我想做的就是在 test1.php 上点击提交，并将 test2.php 显示在 div 中。这实际上工作正常，但我需要向 test2.php
php - 文本区域 -> php -> mysql -> php
我得到了这个代码。我想通过textarea更新mysql。我在textarea中回显我的MySQL，但我不知道如何更新它，我应该把所有东西都放进去吗，因为_GET模式没有给我任何东西，我也尝试_GET
php - 我如何将一个 php 的值解析为另一个 php
首先，我是 php 的新手，所以我仍在努力学习。我在 Wordpress 上创建了一个表单，我想将值插入一个表(data_test 表，我已经管理了)，然后从 data_test 表中获取所有列(id
php - php 中的安全首选项、php 函数来清理输入
我有以下函数可以清理用户或网址的输入: function SanitizeString($var) { $var=stripslashes($var); $va
php - HTML/PHP 登录重定向到 php
我有一个 html 页面，它使用 php 文件查询数据库，然后让用户登录，否则拒绝访问。我遇到的问题是它只是重定向到 php 文件的 url，并且从不对发生的事情提供反馈。这是我第一次使用 html、
php - onClick php PHP 函数然后重定向
我有一个页面充满了指向 pdf 的链接，我想跟踪哪些链接被单击。我以为我可以做如下的事情，但遇到了问题: query($sql); if($result){
php - 有没有办法从 PHP 代码加载的文件中解析 PHP？
我正在使用从外部文本文件加载 HTML/PHP 代码 $f = fopen($filename, "r"); while ($line = fgets($f, 4096)) { print $l

首页

博学

6Ren·AI

商城

php - Levenshtein - 分组酒店名称