gpt4 book ai didi

重新包装硬包装文本的算法?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:37:02 25 4
gpt4 key购买 nike

假设我为我工作的公司编写了一个自定义电子邮件管理应用程序。它从公司的支持帐户读取电子邮件,并将它们的清理后的纯文本版本存储在数据库中,并在此过程中做其他巧妙的事情,例如将其与客户帐户和订单相关联。当一名员工回复消息时,我的程序会生成一封电子邮件,发送给客户,其中包含讨论线程的格式化版本。如果客户回复,应用程序会在主题行中查找唯一编号以读取收到的消息,删除之前的讨论,并将其添加为线程中的新项目。例如:

This is a message from Contoso customer service.Recently, you requested customer support. Below is a summary of your request and our reply.--------------------------------------------------------------------Contoso (Fred) on Tuesday, December 30, 2008 at 9:04 a.m.--------------------------------------------------------------------John:I've modified your address. You can confirm my work by logging into"Your Account" on our Web site. Your order should ship out today.Thanks for shopping at Contoso.--------------------------------------------------------------------You on Tuesday, December 30, 2008 at 8:03 a.m.--------------------------------------------------------------------Oops, I entered my address incorrectly. Can you change it toFred Smith123 Main StAnytown, VA 12345Thanks!--Fred SmithContoso Product Lover

一般来说,这一切都很好,但有一个领域我现在有点推迟清理了一段时间,它处理文本换行。为了生成像上面那样漂亮的电子邮件格式,我需要重新包装客户最初发送的文本。

我已经编写了一个算法来执行此操作(虽然查看了代码,但我不再完全确定它是如何工作的——它可以使用一些重构)。 但它无法区分硬换行、“段落结尾”换行和“语义”换行。例如,硬换行是电子邮件中的换行客户端插入一个段落以换行一长行文本,例如 79 列。段尾换行符是用户在段落的最后一句话之后添加的换行符。语义换行符类似于 br 标记,例如上面 Fred 键入的地址。

我的算法只看到一行中的两个换行符表示一个新段落,因此它会使客户的电子邮件格式如下所示:

Oops, I entered my address incorrectly. Can you change it toFred Smith 123 Main St Anytown, VA 12345Thanks!-- Fred Smith Contoso Product Lover

每当我尝试编写一个可以按预期重新包装文本的版本时,我基本上都会碰壁,因为我需要知道文本的语义,“硬包装”换行符和“”之间的区别我的意思是它像 br"类型的换行符,例如在客户的地址中。 (我连续使用两个换行符来确定何时开始一个新段落,这与大多数人似乎实际键入电子邮件的方式一致。)

谁有可以按预期重新换行文本的算法?或者在权衡任何给定解决方案的复杂性时,此实现是否“足够好”?

谢谢。

最佳答案

您可以尝试检查是否已插入换行符以保持行长度低于最大值(也称为硬换行):只需检查文本中最长的行。然后,对于任何给定的行,您将下一行的第一个单词附加到它。如果生成的行超过最大长度,则换行符可能是硬换行。

更简单的你可能只考虑 (maxlength - 15) <= length <= maxlength 中的所有中断作为硬包装(15 只是一个有根据的猜测)。这肯定会过滤掉地址和内容中的故意中断,并且在此范围内任何错过的中断都不会对结果产生太大影响。

关于重新包装硬包装文本的算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/400359/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com