regex - Lua 中日语的正则表达式-6ren

regex - Lua 中日语的正则表达式

转载作者：行者123 更新时间：2023-12-01 11:58:15

25

4

我想在 Lua(具体来说是 LuaTeX)中处理日语词汇。词汇表存储在要读取的文本文件中。在读取文件的每一行时，单词应该用正则表达式匹配(行写成:|かくせい |学生 |):

function readFile(fn)
   local file = assert(io.open(fn, "r"))
   local contents = file:read("*a")
   file:close()
   return contents
end

function processTest(contents)
   for line in contents:gmatch("%a+") do
      print(line)
   end
end

a = readFile("vocabulary.org")
processTest(a)

现在的问题是只打印了英文单词:

student

我不得不说我是 Lua 和 LuaTeX 的新手，所以如果有更好的方法我会很高兴知道。

无论如何，有没有可能得到日语单词？

最佳答案

你不能为此使用 %a。它只匹配一个八位字节(依赖于语言环境，但通常只匹配一个以 ASCII 或 Latin-1 编码字母的字节。)

要匹配 UTF-8 编码的字母，您需要将它们分解为字节范围，如示例中的 here .

例如，UTF-8 编码的平假名的一些模式可能包括:

(\227\129[\129-\191])
(\227\130[\128-\160])

匹配所有 unicode 字母的完整模式列表(需要包括数百个子范围)会很笨拙。

关于regex - Lua 中日语的正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4749578/

25

4

0

文章推荐： functional-programming - 在函数式编程中使用心理图像

文章推荐： java - 避免越界。尝试 catch 与条件检查

文章推荐： .net - 如何根据提供的属性名称订购 NHibernate 3.0 Linq 查询

文章推荐：移动 UI 框架和其他 UI 脚本

java - 的意思？ java 语
这个问题已经有答案了: What is the Java ?: operator called and what does it do? (17 个回答) 已关闭 8 年前。 ltVal = node
java - 我如何嵌套这个条件语句？ java 语
我是一名 Java 学生，我在嵌套该程序的条件语句时遇到问题 Exercise CozaLozaWoza (Loop & Condition): Write a program called Coza
java - 如何将输入句子的每个字母大写？ ( java 语)
首先，我想给出用户想要留下的句子的数量，当他的写作结束时，我的代码开始将每个单词的第一个字母大写(在 Java 中)。 import java.util.Scanner; public class I
java - 有没有办法在基类中使用重写函数？ ( java 语)
我尝试在基类中实现一个函数，该函数使用子函数(defiend 作为基类中的抽象函数)。我认为一个例子可以最好地说明这个问题。 abstract class Animal{ public void
java - 如何重复一段文本中的每个单独字母？ java 语
就像在口吃中一样，如果文本为“dean”并且乘数为 3，则结果将是“dddeeeaaannn”。 public static void repeatLetters() { String text
java - 如何使这个二叉搜索树工作？？？ ( java 语)
public void insert(int data) { if (root == null) root = new AVLNode(data); else {
java - 为什么XPATH无法访问该标签的值？ ( java 语)
我是 XPATH 的新手，并且遇到以下问题: 我有以下代码片段，但似乎无法按我的预期工作: String XML = cdataContent;
java - 有符号整数类型的签名存储在哪里？ ( java 语)
例如，Java 数据类型字节将数据从 -128 到 127 存储在单个字节中。为了能够区分 - 1 到 -128 从 0 到 127 将需要额外的数据，这些数据将采用数据类型覆盖其分配的存储空间。不可
java - 如何检查字符串是否包含指定字符以外的字符。 ( java 语)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
java - 如何限制排列的生成？ ( java 语)
Dataset: P1: Lion, Snow, Chair P2: Min: 0, Max: 28 P3: Min: 34, Max is 39. 我的程序以一系列数组列表的形式提供上述数据集(P
java - 如何模拟不同的网络场景？ ( java 语)
我正在构建一个应该 24/7 全天候运行的客户端服务器应用程序。应用程序指定检测网络故障(使用心跳)并尽快重新连接到服务器。我做的第一个测试只是停止客户端或服务器，然后重新启动，一切正常。我想知道是
java - 这个的编译时类型是什么？ ( java 语)
我怀疑它是编写它的类的类型，但我不是 100% 确定，有人可以证实我的怀疑并可能提供对定义此行为的 Java 语言规范的引用吗？假设类 A 有一个方法 a()，它在其主体中使用了 this 关键字，
语: how to enforce an interface on a template function
我已经在谷歌上搜索了两个小时，但没有成功。如果我有一个模板函数并且我想在模板类型上强制执行一个接口(interface)，我该怎么做？例如。 void doStuff(T)(bool param)
java - 使用不带replaceAll()的循环打印不带元音的UI； java 语
我正在尝试获取用户输入并对其进行修改，以便打印不带任何元音的字符串。我已经能够使用以下代码成功完成此操作。 Scanner in = new Scanner(System.in); Syste
java - 线程.sleep(); java 语
每当我使用 Thread.sleep(); 时在 do while 循环中，提示告诉我，“在循环中调用 Thread.sleep 可能会导致性能问题。”我从许多其他网站和书籍上听到过这一点。我可以用什
java - 生成一个范围内的随机数。无溢出。 java 语
请不要将其视为以下内容的重复项而将其忽略: How to generate random positive and negative numbers in java 我需要使用带有种子的随机数生成器。
java - 如何选择范围内的随机数，但加权到该范围的一部分？ ( java 语)
我想在一个数字范围内选择随机数，但权重偏向该范围的一部分。例如: 选择1-10之间的随机数对其进行加权，使 1-5 比 6-10 的可能性高 20% 这可能吗？我该怎么做？最佳答案这取决于您希望
java - 如何初始化 TIME 数组？ java 语
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
java - 如何更改或设置新的 Activity 启动器应用程序？ ( java 语)
我有一个付款 Activity 和启动 Activity ，它在用户购买后显示内容应用程序。付款 Activity 是Manifest.xml中的默认启动器，我想将启动器 Activity 设置为启动
arrays - 语: Construct an array from a pointer and length
我有一个指针和长度。如何从他们那里得到一个动态数组？最佳答案设ptr是一个指针，len是一个长度，那么很容易如下: ptr[0..len] 请注意，这不会复制数组，而是就地使用数据。如果要复制数

首页

博学

6Ren·AI

商城

regex - Lua 中日语的正则表达式