gpt4 book ai didi

ruby-on-rails - 从 MS-Word 中清理粘贴的文本

转载 作者:数据小太阳 更新时间:2023-10-29 08:55:14 25 4
gpt4 key购买 nike

这是我狂野而古怪的伪代码。有人知道如何实现吗?

背景:

此动态内容来自 ckeditor。许多人将 Microsoft Word 内容粘贴到其中。不用担心,如果我只是调用属性不变,它会加载得很漂亮。但要注意的是,我希望它仅缩写为 125 个字符。当我向其中添加截断时,所有 Microsoft Word 脚本都会开始弹出。然后我添加了 simple_format、sanitize 和 truncate,甚至让我的 Controller 开始发现 MS 将生成的特定变量并将它们 gsub 出来。但是它们太多了,这似乎是一种非常困惑的实现方式。原来如此!自己意识到这一点,它很干净。我想,为什么不把它切成薄片呢。但是,Microsoft Word 文本变为空白但仍保留其在字符串中的编号位置。所以我想出了下面这个(可能很糟糕)的解决方案。

分为三个步骤。

  1. 当文本被解析时,它不会显示任何 MSWord 垃圾。但是该文本在 slice 语句中仍然占据一个数字位置。所以我想使用正则表达式来查找第一个实际字符。
  2. 取那个字符并找出它在整个字符串中的编号位置。
  3. 使用 slice 语句将其剪切。

    def about_us_truncated
    x = self.about_us.find.first(regExp representing first actual character)
    x.charCount = y
    self.about_us[y..125]
    end

我得到的唯一其他想法是一个正则表达式语句,它允许它只显式切片实际字符,如下所示:

about_us([a-zA-Z][0..125]) ,但这绝对不是它的写法。

这里是 MS Word 垃圾的一些示例文本:

 ≪! [If Gte Mso 9]>≪Xml>≪Br /> ≪O:Office Document Settings>≪Br /> ≪O:Allow Png/>≪Br /> ≪/O:Off...

最佳答案

您没有提供太多有用的信息,但是在寻求帮助之前不要太谨慎尝试自己构建此正则表达式...

将您的示例文本粘贴到测试字符串区域的 Rubular 中,然后开始构建您的正则表达式。它在底部有一个很好的快速引用。

关于ruby-on-rails - 从 MS-Word 中清理粘贴的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3104611/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com