json - 使用 perl 对存储在 JSON 中的 utf8 文件名进行规范化-6ren

json - 使用 perl 对存储在 JSON 中的 utf8 文件名进行规范化

转载作者：行者123 更新时间：2023-12-04 08:49:15

26

4

我有两个来自不同操作系统的 Json 文件。

两个文件都编码为 UTF-8并包含 UTF-8编码 filenames .

一个文件来自 OS X，文件名采用 NFD 格式:( od -bc )

0000160   166 145 164 154 141 314 201 057 110 157 165 163 145 040 155 145
           v   e   t   l   a    ́  **   /   H   o   u   s   e       m   e

第二个包含相同的文件名，但采用 NFC 形式:

000760   166 145 164 154 303 241 057 110 157 165 163 145 040 155 145 163
           v   e   t   l   á  **   /   H   o   u   s   e       m   e   s

据我所知，这被称为“不同规范化”，并且有一个 CPAN 模块 Unicode::Normalize处理它。

我正在阅读以下两个文件:

my $json1 = decode_json read_file($file1, {binmode => ':raw'}) or die "..." ;
my $json2 = decode_json read_file($file2, {binmode => ':raw'}) or die "..." ;

read_file 来自 File::Slurp和来自 JSON::XS 的 decode_json .

将 JSON 读入 perl 结构，从一个 json 文件中文件名进入 key位置并从第二个文件进入 values .我需要搜索哈希时 key从第一个哈希开始是等效到 value从第二个哈希，所以需要确保它们是“二进制”相同的。

尝试了下一个:

 grep 'House' file1.json | perl -CSAD -MUnicode::Normalize -nlE 'print NFD($_)' | od -bc

和

 grep 'House' file2.json | perl -CSAD -MUnicode::Normalize -nlE 'print NFD($_)' | od -bc

为我产生相同的输出。

现在的问题:

如何简单读取两个 json 文件以获得相同的规范化到两个 $hashrefs ?

或者需要 decode_json之后在两个哈希上运行类似的东西？

while(my($k,$v) = each(%$json1)) {
    $copy->{ NFD($k) } = NFD($v);
}

简而言之:

如何在 perl $href 中读取不同的 JSON 文件以获得相同的规范化?显式执行 NFD 可能会更好一些。在每个 key value并创建另一个 NFD 标准化(大)哈希副本？

一些提示，建议 - 请...

因为我的英文很差，这里是模拟问题的

use 5.014;
use warnings;

use utf8;
use feature qw(unicode_strings);
use charnames qw(:full);
use open qw(:std :utf8);
use Encode qw(encode decode);
use Unicode::Normalize qw(NFD NFC);

use File::Slurp;
use Data::Dumper;
use JSON::XS;

#Creating two files what contains different "normalizations"
my($nfc, $nfd);;
$nfc->{ NFC('key') } = NFC('vál');
$nfd->{ NFD('vál') } = 'something';

#save as NFC - this comes from "FreeBSD"
my $jnfc =  JSON::XS->new->encode($nfc);
open my $fd, ">:utf8", "nfc.json" or die("nfc");
print $fd $jnfc;
close $fd;

#save as NFD - this comes from "OS X"
my $jnfd =  JSON::XS->new->encode($nfd);
open $fd, ">:utf8", "nfd.json" or die("nfd");
print $fd $jnfd;
close $fd;

#now read them
my $jc = decode_json read_file( "nfc.json", { binmode => ':raw' } ) or die "No file" ;
my $jd = decode_json read_file( "nfd.json", { binmode => ':raw' } ) or die "No file" ;

say $jd->{ $jc->{key} } // "NO FOUND";    #wanted to print "something"

my $jc2;
#is here a better way to DO THIS?
while(my($k,$v) = each(%$jc)) {
    $jc2->{ NFD($k) } = NFD($v);
}
say $jd->{ $jc2->{key} } // "NO FOUND";    #OK

最佳答案

在为您的问题寻找正确的解决方案时，我发现:该软件是 c*rp :) 请参阅:https://stackoverflow.com/a/17448888/632407 .

无论如何，为您的特定问题找到了解决方案 - 如何使用文件名读取 json 而不管规范化:

而不是你的:

#now read them
my $jc = decode_json read_file( "nfc.json", { binmode => ':raw' } ) or die "No file" ;
my $jd = decode_json read_file( "nfd.json", { binmode => ':raw' } ) or die "No file" ;

使用下一个:

#now read them
my $jc = get_json_from_utf8_file('nfc.json') ;
my $jd = get_json_from_utf8_file('nfd.json') ;
...

sub get_json_from_utf8_file {
    my $file = shift;
    return
      decode_json      #let parse the json to perl
        encode 'utf8', #the decode_json want utf8 encoded binary string, encode it
          NFC          #conv. to precomposed normalization - regardless of the source
            read_file  #your file contains utf8 encoded text, so read it correctly
              $file, { binmode => ':utf8' } ;
}

这应该(至少我希望)确保而不考虑什么分解使用 JSON 内容， NFC会将其转换为预先组合的版本，并且 JSON:XS 将正确读取并将其解析为相同的内部 perl 结构。

所以你的例子打印:

something

无需遍历 $json
这个想法来自约瑟夫迈尔斯和尼莫；)

也许一些更熟练的程序员会给出更多的提示。

关于json - 使用 perl 对存储在 JSON 中的 utf8 文件名进行规范化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17434027/

26

4

0

文章推荐： sql - 编写自联接查询？

文章推荐： sql - 存储过程中的分页

文章推荐： haskell - 安装 leksah 的异常

文章推荐： django - OperationalError 无法连接到服务器

SSIS - 如何遍历文件夹中的文件并获取路径+文件名，最后执行存储过程，参数为路径+文件名
任何帮助深表感谢。我正在尝试创建一个 SSIS 包来遍历文件夹中的文件并获取路径+文件名，最后执行存储的过程，参数为路径+文件名。我不确定如何获取路径+文件名并将其作为参数插入到存储过程中。我附上了截
Powershell脚本来定位特定文件/文件名？
我想编写一个小脚本来搜索确切的文件名，而不是文件名中的字符串。例如，如果我使用资源管理器搜索“主机”，默认情况下我会得到多个结果。对于脚本，我只需要我指定的名称。我假设这可能吗？我才真正开始编写脚
Python字符串编码-文件名
str(文件.key) = '1011/101011/文件名' newFileName = str(file.key) 但是，当我运行代码时，我得到: UnicodeEncodeError: 'asc
文件名正则表达式提取方法
下面这段子程基本上可以算是比较不错的通用匹配了。(PS:我突然发现CODE_LITE把我的UBB转义了！！！晕,我只好自己转义了。。。) Dim objRegExp,Matc
PHP Unicode 文件名
PHP 无法处理带有 Unicode 字符的文件:当我在浏览器上访问 testSite/главная.php 时，它会抛出此错误。 Warning: Unknown: failed to open
VBA Vlookup 文件名
我正在尝试包含 Dim在 Vlookup 中。 Dim filename As String filename = Format(DateAdd("d", -6, Now()), "mm-dd-yy"
makefile 链接目录/文件名
在我的日常构建项目中，我们将其库存储到其版本名称目录中。 . 对于最新的，我们正在创建符号链接(symbolic link)作为“最新”。前任。- ls -ltr drw-r--r-- 1 4096
yeoman 。文件名、目录名或卷标语法不正确
重新安装了 Windows 10(版本 10.0.14393)。重新安装了以下内容: java java version "1.8.0_121" Java(TM) SE Runtime Environ
没有日期的 Jekyll 文件名
我想使用 Jekyll 和 GitHub Pages 构建文档站点。问题是 Jekyll 只接受 _posts 下的文件名具有精确的图案，如 YYYY-MM-DD-your-title-is-here
java - 按升序读取多个文件文件名
我不知道我发生了什么事。我想访问一个包含多个文件的目录，假设: folder\\1.txt 2.txt 3.txt.... 现在我想根据它们的出现情况来阅读它们，我的意思是首先是最低的，只是我想按升
unix - 你如何获得 a/into 文件名？
如何将/放入文件名(即/不分隔路径的组成部分)？最佳答案你不知道。 UNIX 文件名中不允许使用斜线。关于unix - 你如何获得 a/into 文件名？，我们在Stack Overflow上找
python - 递归复制文件夹并更改复制文件的文件夹/文件名
我需要复制一个大文件夹，并重命名其中的所有文件和文件夹(如果它们包含特定字符串)。基本上我想复制所有内容并将 10 的任何实例更改为 11。例如，如果我有一个结构如下的文件夹: mainfolder
python - 文件名、目录名或卷标语法不正确
我有一个简单的 python (2.7) 脚本，应该执行一些 svn 命令: def getStatusOutput(cmd): print cmd p = subprocess.Po
python - Genfromtxt 文件名
我正在尝试读取以字符串形式存储在数据文件中的文件名。那里没问题。如果我将它传递给 genfromtxt，我会收到错误“IOError:Z:\Python\Rb input.txt not found”
具有多个句点的 C 文件名
简单的问题。当我尝试打开名为 text.txt 的文件时，它可以正常工作。但是，如果我将文件重命名为 text.cir.txt，则会出现错误。我可以做什么来修复它？ FILE *fd; char
c# - 获取用我的应用程序打开的文件的路径+文件名
我是 c# 的业余爱好者，我一直无法找到这个问题的答案。也许我不知道要使用的正确术语。当一个视频文件被拖到我的 exe 应用程序上时，我希望应用程序知道它是用一个文件启动的，并且能够知道该文件的路径
c# - 如何使用子字符串删除字符串结尾(文件名)？
我知道我必须使用 Substring 来删除，但我不知道该怎么做。我需要像这样删除字符串的结尾来自 "C:\\Users\\myname\\Pictures\\shoeImage.jpg" 到 "C
java - 文件名、目录名或卷标语法不正确
运行 eclipse 时我收到此错误。但是当我运行我的项目时，它是在内部浏览器中执行的。但它不会在默认的系统浏览器中执行。对此任何一个答案。先谢谢您的回答最佳答案您可以从 eclipse 更改浏览
android - 提示用户输入路径/文件名
我想要求用户选择一个要从外部存储打开的文件并接收它的路径。最好我想避免过多的编码并使用一些标准方法(众所周知，系统提供的 Intent 或类似方法)。所说的文件是SpatiaLite db文件(*.s
Postgresql 全文搜索非常短的文档(文件名)
我有一个文件名数据库，我正在尝试使用 PG 的全文搜索工具在其中进行搜索。我在文件名表上运行搜索查询，问题是排名函数没有按照我希望的那样对结果进行排名。为了便于讨论，我们假设架构如下所示: creat

首页

博学

6Ren·AI

商城

json - 使用 perl 对存储在 JSON 中的 utf8 文件名进行规范化