python - 在翻译文本中自动同步 Markdown(ProGit 书籍，可用资源)-6ren

python - 在翻译文本中自动同步 Markdown(ProGit 书籍，可用资源)

转载作者：行者123 更新时间：2023-11-28 18:50:32

26

4

摘要:将翻译内容中列出的子字符串包装为反引号的有效方法是什么？

动机:我正在将翻译文本中的 Markdown 标记与原文同步。我确实将 Scott Chacon 的 ProGit 书很好地翻译成了捷克语。不幸的是，它使用与原始版本完全不同的工具链进行排版，并且原始标记已经丢失。到目前为止，我已成功将大部分内容转换回 Markdown 并将文档结构与原始内容同步。下一步是在 code 周围使用反引号修复在翻译中。

情况

说，我有以下原文段落。实际上，如果重要的话，这是一个没有换行符的长行:

    On Windows systems, Git looks for the `.gitconfig` file in the 
    `$HOME` directory (`C:\Documents and Settings\$USER` for most 
    people). It also still looks for /etc/gitconfig, although it’s 
    relative to the MSys root, which is wherever you decide to 
    install Git on your Windows system when you run the installer.

我也有翻译的段落:

    Ve Windows používá Git soubor .gitconfig, který je umístěný v 
    domovském adresáři (u většiny uživatelů C:\Documents and 
    Settings\$USER). Dále se pokusí vyhledat ještě soubor 
    /etc/gitconfig, který je relativní vůči kořenovému adresáři. 
    Ten je umístěn tam, kam jste se rozhodli nainstalovat Git po 
    spuštění instalačního programu.

使用正则表达式，我确实从原始列表中提取了以下列表(这里是 repr()——因此是双反斜杠):

    ['.gitconfig', '$HOME', 'C:\\Documents and Settings\\$USER']

将翻译内容中列出的子字符串包装为反引号的有效方法是什么？问题还在于某些段落可能会多次重复相同的子字符串。我也不能告诉你会发生什么其他并发症。 ( "My brain hurts, too!" )

附注:对于那些对这个问题更感兴趣的人，一切都可以在 https://github.com/pepr/progitCZ 上找到。 (刚刚提交 04d1354656276bf1e6ba7305d06c12faca267a19；警告，评论是捷克语)。问题与 util/cz.py有关脚本。这是第四遍——在 pass4.py 中实现.目前，我将列表转换为集合，然后调用 str.replace()对于每个子串。
info_aux_cs\pass4backticks.txt文件显示了自动化过程的比较。 info_aux_cs\pass4.txt显示“固定”结果， txtCorrected\RucneUpravovanyVysledekPass2.txt显示最后一个手动修改的阶段。

另一个问题是... 文档的结构已经同步。另一方面，还没有检查段落的内容(翻译)是否有较新的原文。

更新 - 观察到新问题

自动替换可能不明确。我确实观察到了这样的案例 ['git clone', 'clone', ...] .如 set首先创建， clone实际上可以更早地包装。这条路

some text git `clone` other text

出现在

some text `git clone` other text

应该是正确的替换。

我知道这种方法非常具有启发性，实际上不需要非常精确地完成。一旦自动替换的文本将成为手动编辑的来源。这样，解决方案的一部分可以可视化应该由人眼检查并由人手修复的可疑差异:)

您对如何找到解决该问题的最可靠方法有任何想法吗？以下是我想到的一些启发式方法——即何时可视化潜在问题:

原文中的所有子串都应该在翻译中找到。否则，翻译在某种程度上是特定的或不是最新的，或者只是瘫痪。翻译可能会更改她的子字符串，但应该认识到这一点，并且稍后应该明确禁止检查。

目标语言中可能不会保留子字符串的顺序。无论如何，相同顺序的相同数量的子串是替换成功的好兆头。

应该先替换最长的子串吗？

...但较短的 substings 将在下一步替换？

是否可以从子字符串构造正则表达式模式，并使用正则表达式的贪婪性来一次替换反引号所有模式？

任何好主意都非常受欢迎;)

感谢您的时间和经验，

彼得

最佳答案

到目前为止，我发现使用正则表达式的解决方案是最有希望的。如果您找到更好的解决方案，我将很乐意接受您的解决方案:)

首先，这是查找反引号子字符串的正则表达式:

rexBackticked = re.compile(r'`(\S.*?\S?)`')

拥有原版 enpara和翻译 cspara段落，我可以像这样提取反引号的子字符串列表:

enlst = rexBackticked.findall(enpara)
cslst = rexBackticked.findall(cspara)

然后我测试一下是否应该修改捷克语段:

if set(enlst) != set(cslst) or len(enlst) != len(cslst):

如果是，那么我创建一个子串的差异列表，这些子串不是但应该在 cspara 中反引号。 (可能会写得更好):

    dlst = enlst[:]   # copy
    for s in cslst:
        if s in dlst:
            dlst.remove(s)

现在我需要构建一个正则表达式对象来识别 dlst子串。我已经定义了以下函数:

def buildRex(self, lst):
    '''Build a regular expression mathing substrings from the lst.'''

    # Build a list of escaped unique substrings from the input list.
    # The order is not important now as it must be corrected later.
    lst2 = [re.escape(s) for s in set(lst)]

    # Join the escaped substrings to form the regular expression
    # pattern, build the regular expression, and return it. There could
    # be longer paterns that contain shorter patterns. The longer patterns
    # should be matched first. This way, the lst2 must be reverse sorted
    # by the length of the patterns.
    pat = '|'.join(sorted(lst2, key=len, reverse=True))
    rex = re.compile(pat)
    return rex

现在我可以用它来替换 cspara 中所有不重叠的子串:

    rex = self.buildRex(dlst)
    cspara, n = rex.subn(r'`\g<0>`', cspara)

哪里 n是对 future 检查可能很重要的替换次数。

欢迎任何意见!

关于python - 在翻译文本中自动同步 Markdown(ProGit 书籍，可用资源)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13584317/

26

4

0

文章推荐： python 2.7字符串格式为十进制作为圆形函数

文章推荐： javascript - 在多维数组中查找值的最快方法？

文章推荐： python - “int”对象不是可迭代的 GIS 脚本

postgresql - 组内级联的Postgres交叉表(文本，文本)
表架构 DROP TABLE bla; CREATE TABLE bla (id INTEGER, city INTEGER, year_ INTEGER, month_ INTEGER, val I
javascript - 按一定顺序分割字符串。例如文本/0000/文本/文本
我需要拆分字符串/或从具有以下结构的字符串中获取更容易的子字符串。字符串将来自 window.location.pathname 或 window.location.href，看起来像 text/n
ios - 将对象添加到数组时更新 textView 文本，而不覆盖前一个对象的 textView 文本
每当将对象添加到数组中时，我都会尝试更新 TextView ，并在 TextView 中显示该文本，如下所示: "object 1" "object 2" 问题是，每次将新对象添加到数组时，它都会覆盖
java - Html 2 文本 - 删除 "hidden"文本
我目前正在寻找使用 Java 读取网站可见文本并将其存储为纯文本字符串的方法。换句话说，我想转换成这样: Hello stupid World进入“ Hello World ” 或者类似的东西 Un
php - Pear Mail，如何以UTF-8发送纯文本/文本+文本/html
我正在尝试以文本和 HTML 格式发送电子邮件，但无法正确发送正确的 header 。特别是，我想设置 Content-Type header ，但我找不到如何为 html 和文本部分单独设置它。这
c# - 从资源 wpf 绑定(bind)文本 block 文本
我尝试了上面的代码，但我无法绑定(bind)文本，我怎样才能将资源内部文本 bloc
unity3d - Unity 网络播放器因 UI 文本(新 Canvas 文本)而崩溃
我刚刚完成了 Space Shooter 教程，由于没有 GUIText 对象，所以我创建了 UI.Text 对象并进行了相应的编码。它在统一播放器中有效，但在构建 Web 应用程序后无效。我花了一段
ios - 为什么 UITextField 文本 setter 无法识别 [UIView 文本] 选择器
我有这个代码: - (IBAction)setButtonPressed:(id)sender { NSUserDefaults *sharedDefaults = [[NSUserDefau
java - 在 JLabel 图标上添加 JLabel 文本。使用相同的 JLabel 文本
抱歉标题含糊不清，但我想不出我想在标题中做什么。无论如何，对于图像上的文本，我使用了 JLabel 文本并将其添加到图标中。 JLabel icon = new JLabel(new Imag
javascript - "The stylesheet was not loaded because its MIME type, "文本/html "is not "文本/css"
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
html - 是否可以使用 CSS 定位 HTML(文本)？ - 它显示为(文本)作为 ID
我在将 Twitter 嵌入到我从 HTML 5 转换的 wordpress 运行网站时遇到问题。我遇到的问题是推文不是我的自定义字体... 这是我无法使用任何 css 定位的 HTML 代码，我正
java - 将 logger.debug ("message: "+ 文本)转换为 logger.debug(消息 : {}", 文本)
我正在尝试找到解决由于使用以下形式的代码而导致的冗余字符串连接问题的最佳方法: logger.debug("Entering loop, arg is: " + arg) // @1 在大多数情况下，
java分组正则表达式无法匹配字符串+文本
我写了这个测试 @Test public void removeRequestTextFromRouteError() throws Exception { String input = "F
java正则表达式匹配&[文本]
我目前正在创建一个正则表达式来拆分所有匹配以下格式的字符串:&[文本]，并且需要获取文本。字符串可能类似于:something &[text] &[text] everything &[text] 等
CSS变形词/文本
有没有办法将标题文本从一个词变形为另一个词，同时保留两个词中使用的字母？我看过的许多 css 文本动画大多是视觉的，很少有旋转整个单词的。我想要做的是从一个词过渡，例如“BEACH”到“CHANGE
学习python中matplotlib绘图设置坐标轴刻度、文本
总结matplotlib绘图如何设置坐标轴刻度大小和刻度。上代码： ?
容器内的 Flutter 文本
我在容器 (1) 中创建了容器 (2)。你能帮忙如何向容器(1)添加文本吗？下面是我的代码 return Scaffold( body: Padding( padding: c
具有渐变和渐变轮廓的 CSS 文本
我似乎找不到任何人或任何人这样做过。我试图限制我们使用的图像数量，并想创建一个带有渐变作为其“颜色”的文本，并在其周围设置渐变轮廓/描边到目前为止，我还没有看到任何将两者结合在一起的东西。我可以自
从视频游戏截图中提取 Python 文本
我正在为视频游戏暗黑破坏神 2 使用 discord.py 构建一个不和谐机器人。其中一项功能要求机器人从暗黑破坏神 2 屏幕截图中提取项目的名称和属性。我目前正在为此使用 pytesseract，但
在ggplot2中旋转 strip 文本
我很难弄清楚如何旋转 strip.text theme 中的属性来自 ggplot2 .我使用的是 R 版本 3.4.2 和 ggplot2 版本 2.2.1。以下是 MWE 的数据。 > dput

首页

博学

6Ren·AI

商城

python - 在翻译文本中自动同步 Markdown(ProGit 书籍，可用资源)