gpt4 book ai didi

html - 泰语断线 : how to break Thai text effectively

转载 作者:技术小花猫 更新时间:2023-10-29 11:45:48 36 4
gpt4 key购买 nike

情况在客户端站点上使用泰语文本是我们无法控制特定单词/句子在行之间的确切位置(网络浏览器将如何处理它)。通常,内容外观会被本地评论者认为是错误的。

解决方法为此,撰稿人需要提供具有破坏性的泰国内容 ​ 和不间断  包括零宽度空格字符。

在实践中,而不是:
ของเพื่อนๆ ที่ออนไลน์อยู่
我们应该使用像这样丑陋的东西:
ของเพื่อนๆ​ที่​ออนไลน์อยู่

上面只是一个例子,我真的不知 Prop 体哪里可以设置断点。
事实上,单独使用不间断的零空格也可以解决问题……为了更好的准确性,也使用不间断的零空格更加严格和正确。

虽然这样做确实可行,但对于大型站点内容管理来说,这也是一个耗时且不是很有效的解决方案。简单地说,付出的努力与所需要的效果不相符。

研究到目前为止已经导致提到的解决方法,寻找更好的方法来处理这个问题。连W3C doesn't have a solution yet并且正在讨论它是否应该成为 CSS3 规范的一部分。

泰语很少使用空格,主要是为了区分句子等。因此,泰语句子的常见外观是一个很长的字符串。当更多的文本行放在一起时,在哪里断开这样的字符串是由特定的单词识别决定的。对于单词识别,使用的本地词典很可能是操作系统或网络浏览器的一部分,我对此并不完全确定。

显然,您检查的网络浏览器/操作系统越多,您获得的结果就越多!此外,您对此无能为力,因为它是系统驱动的,并且没有“在哪里中断泰语”设置可用。

使用 <wbr/> , &#8203; &shy; 指示断点的实际位置不会阻止网络浏览器认为(即使是错误的)某些断点也可能出现在您尚未定义的地方,例如在语法上可能不正确的单词中间。

如果这样的单词放在行尾 (取决于屏幕分辨率、复制长度、定义的 CSS 规则) 并且浏览器对其应用了错误的换行规则,那么您将结束解决泰语换行问题,无论您在单词之前、之后或其他地方定义了另一个断点 - 浏览器将始终使用他认为最接近 EOL 的断点,而不仅仅是您通过插入轻轻建议的断点标记中提到的字符之一。

这就是为什么您实际上需要关注不打断文本的地方 (不打断零宽度空间),而不是允许打断的地方。这就是让我们回到上面“解决方法”部分中丑陋而冗长的标记示例的原因。这样一来,换行符只能出现在您允许的位置,但它很困惑。

任何其他解决方案如何更有效地处理这个问题将不胜感激……谁知道呢,它甚至可能有助于 W3C 的实现?

谢谢!

最佳答案

我知道这个话题已经有一段时间了,但作为一个土生土长的泰国人,我有话要说。我每天都会阅读很多泰语网页,我觉得现在现代网络浏览器的泰语换行质量是完全可以接受的。

据我所知,Google Chrome 浏览器使用 ICU4C,Internet Explorer 使用 Uniscribe API,而 Firefox 使用 libthai 将泰语句子分解为单词。对于我认识的泰国人来说,这些网络浏览器如何处理泰语中的换行符是他们完全可以接受的。 (实际上,我们曾经在早期版本的 Firefox (1.x) 中遇到过这个问题,但现在已经解决了。)

与西方语言不同,泰语断行和断字仍被认为是一个 Unresolved 问题,许多语言学研究人员仍在积极解决。目前还没有可以完美地将句子分解为泰语单词的实现。 IBM ICU Boundary Analysis页面包含对此问题的一些分析。

很多时候,这与上下文有关。例如,短语 "ตากลม" 可以正确地分解为 "ตา","กลม""ตาก","ลม"。每种方式都表达了完全不同的意思,但泰国读者仍然可以根据上下文完全理解其预期含义。

鉴于您本地的审阅者已经熟悉阅读泰国网站,我认为他们可能对您解决这个问题太过分了。这是所有泰国网站、Web 浏览器甚至 Microsoft Word 的常见无法解决问题。

最好等待(或为 IBM ICU 做贡献)直到泰语断句实现变得更好。让网络浏览器处理这个。我认为尝试解决此问题不值得您花费宝贵的时间。据我所知,即使是这里的泰国网站发布者也根本不关心如何正确处理这一问题。

如果您需要发布具有完美换行/分词的文档,您可以考虑其他媒体,例如 PDF 文档,您应该在其中更好地控制换行。

希望这有帮助:)

关于html - 泰语断线 : how to break Thai text effectively,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8492763/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com