unicode - Twitter 文本压缩挑战-6ren

unicode - Twitter 文本压缩挑战

转载作者：行者123 更新时间：2023-12-04 12:38:36

25

4

规则

你的程序必须有两种模式:编码和解码 .

当编码 :

您的程序必须将一些人类可读的输入作为输入 Latin1文字，大概是英文。

忽略标点符号也没关系。

您只需要担心实际的英语单词，而不是 L337。

任何带重音的字母都可以转换为简单的 ASCII。

您可以选择处理数字的方式。

123

一二三

一百二十三

123

1 2 3

一百二十三

一二三

一百二十三

123

1 2 3

您的程序必须输出一条消息，该消息可以用

范围内的 140 个代码点 U+0000 – U+10FFFF
排除非字符:

U+FFFE

U+FFFF

U+ n FFFE , U+ n FFFF哪里n是 1 – 10十六进制

U+FDD0 – U+FDEF

U+D800 – U+DFFF (代理代码点)。

它可以以您选择的任何合理编码输出；
GNU iconv 支持的任何编码会被认为是合理的，
并且您的平台 native 编码或区域设置编码可能是一个不错的选择。

当解码 :

您的程序应该将 的输出作为输入。编码 模式。

文本输出应该是输入文本的近似值。

越接近原文越好。

不需要任何标点符号。

输出文本应该是人类可读的，也可能是英语。

可以是L337，或者哈哈。

解码过程可能无法访问编码过程的任何其他输出
除了上面指定的输出；
也就是说，你不能在某处上传文本并输出 URL
用于下载解码过程，或任何类似的愚蠢行为。

为了用户界面的一致性，您的程序必须如下所示:

您的程序必须是一个可以在具有适当解释器的平台上设置为可执行的脚本，
或者可以编译成可执行文件的程序。

你的程序必须将 encode 作为它的第一个参数或 decode设置模式。

您的程序必须至少以下列方式之一接收输入:

从标准输入获取输入并在标准输出上产生输出。

my-program encode <input.txt >output.utf

my-program decode <output.utf >output.txt

从第二个参数中命名的文件中获取输入，并在第三个参数中命名的文件中生成输出。

my-program encode input.txt output.utf

my-program decode output.utf output.txt

对于您的解决方案，请发布:

您的完整代码和/或其他地方托管的链接
(如果它很长，或者需要很多文件来编译，或者其他什么)。

对它如何工作的解释，如果它不是从代码中立即显而易见的
或者如果代码很长并且人们会对摘要感兴趣。

一个示例文本，包含原始文本、压缩后的文本和解码后的文本。

如果您基于其他人的想法，请注明出处。
尝试完善别人的想法是可以的，但是你必须归于他们。

这些规则是 Twitter image encoding challenge 规则的变体.

最佳答案

不确定我是否有时间/精力用实际代码来跟进，但这是我的想法:

任何特定长度下的任意 LATIN 1 字符串都可以简单地编码(甚至不压缩)而不会丢失为 140 个字符。幼稚的估计是 280 个字符，尽管由于比赛规则中的代码点限制，它可能比这短一点。

比上述长度稍长的字符串(允许在 280 到 500 个字符之间进行推测)很可能可以使用标准压缩技术缩小为足够短的字符串以允许上述编码。

任何比这更长的时间，我们都会开始丢失文本中的信息。因此，执行最少数量的以下步骤以将字符串减少到可以使用上述方法进行压缩/编码的长度。另外，如果只是在子字符串上执行这些替换会使其足够短(我可能会向后遍历字符串)，请不要在整个字符串上执行这些替换。

将 127 以上的所有 LATIN 1 字符(主要是重音字母和时髦符号)替换为最接近的非重音字母字符中的等效字符，或者可能替换为“#”之类的通用符号替换

用等效的小写形式替换所有大写字母

用空格替换所有非字母数字(任何剩余的符号或标点符号)

将所有数字替换为 0

好的，现在我们已经消除了尽可能多的多余字符。现在我们要做一些更显着的减少:

用单个字母(气球)替换所有双字母(气球)。看起来很奇怪，但仍然希望读者能够理解。

用较短的等价物替换其他常见字母组合(CK 与 K、WR 与 R 等)

好的，这就是我们所能做到的，并使文本可读。除此之外，让我们看看我们是否可以想出一种方法，使文本类似于原始文本，即使它最终不是可解密的(同样，从字符串的末尾开始一次执行一个字符，并在它足够短):

用

替换所有元音 (aeiouy)

将所有“高”字母 (bdfhklt) 替换为 l

将所有“短”字母 (cmnrsvwxz) 替换为 n

将所有“悬挂”字母 (gjpq) 替换为 p

这应该给我们留下一个由 5 个可能值(a、l、n、p 和空格)组成的字符串，这应该允许我们对非常长的字符串进行编码。

除此之外，我们只需要截断即可。

我能想到的唯一其他技术是对常见单词或字母组进行基于字典的编码。这可能会给我们一些正确的句子带来好处，但可能不会给任意字符串带来好处。

关于unicode - Twitter 文本压缩挑战，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1014271/

25

4

0

文章推荐： linq - Linq 中的临时表——有人看到这个问题吗？

文章推荐： ironpython - Iron Python/Iron Ruby EXE

文章推荐： Qt 信号和插槽 - 没有匹配的调用函数

ruby-on-rails - 如何生成文件，然后使用 Heroku 压缩/压缩？
我有点想做 the reverse of this. 我不想解压缩并将收集文件添加到 S3 应用户要求: 生成一堆xml文件使用一些图像(托管在 s3 上的预先存在的图像)压缩 xml 文件下载
apache - 压缩/压缩 javascript 和 css 文件
将此添加到域的虚拟主机后 AddOutputFilterByType DEFLATE application/javascript text/javascript text/css 响应头不包含任何内
apache 压缩压缩 .js 和 .css 文件未压缩？
在 Apache Im 中，通过将以下内容添加到我的 .htaccess 文件来启用输出压缩: # compress text, html, javascript, css, xml: AddOutp
压缩 HTTP
是否可以以压缩格式将请求数据从浏览器发送到服务器？如果是，我们该怎么做？最佳答案压缩从浏览器发送到服务器的数据是不受 native 支持在浏览器中。您必须找到一种解决方法，使用客户端语言(可
JavaScript 压缩
我正在寻找可以压缩JavaScript源代码的工具。我发现一些网络工具只能删除空格字符？但也许存在更好的工具，可以压缩用户的函数名称、字段名称、删除未使用的字段等。最佳答案经常用来压缩JS代码的工
压缩/合并数字组合的算法
使用赛马博彩场景，假设我有许多单独的投注来预测比赛的前 4 名选手 (superfecta)。赌注如下... 1/2/3/4 1/2/3/5 1/2/4/3 1/2/4/5 1/2/5/3
SQL 2008 压缩
我是一名实习生，被要求对 SQL 2008 数据压缩进行一些研究。我们想将 Outlook 电子邮件的几个部分存储在一个表中。问题是我们想将整个电子邮件正文存储在一个字段中，然后又想压缩它。使用 Ch
php - 压缩/减小视频的文件大小
我目前有一个系统，用户可以在其中上传 MP4 文件，并且可以在移动设备上下载该文件。但有时，这些视频的大小超过 5MB，在我国，大多数人使用 2G。因此，下载大型视频通常需要 15-20 分钟。有什
sql - 压缩/重复连接？
假设我有一个带有类型列的简单文档表: Documents Id Type 1 A 2 A 3 B 4 C 5 C 6 A 7 A 8 A 9 B 10 C 用户
r - 压缩/汇总R中的字符串开始和长度数据
我有一个较大字符串中的(子)字符串位置的 data.frame。数据包含(子)字符串的开头及其长度。可以很容易地计算出(子)字符串的结束位置。 data1 start length end #>
encryption - 编码、压缩
我想知道是否文件加密算法可以设计成它也可以执行文件压缩的事件(任何活生生的例子？)。我也可以将它集成到移动短信服务中，我的意思是短信吗？另外我想知道二进制文件...如果纯文本文件以二进制编码
image - PNG 压缩
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
javascript - 压缩 JavaScript
我们有几个具有大量 JavaScript 的 Java 项目，目前我们使用的是旧版本的 YUICompressor (2.4.2)。然而，我在这篇博文中发现 YUICompressor 正在 depr
ASP.NET 压缩
从之前关于尝试提高网站性能的文章中，我一直在研究 HTTP 压缩。我读过有关在 IIS 中设置它的信息，但它似乎是所有 IIS 应用程序池的全局事物，我可能不允许这样做，因为还有另一个站点在其上运行。
WCF REST 压缩
我有一个 REST 服务，它返回一大块 XML，大约值(value) 150k。例如http://xmlservice.com/services/RestService.svc/GetLargeXM
javascript - UglifyJS 压缩
我正在尝试获取一个简单的 UglifyJS (v2.3.6) 示例来处理压缩。具体来说，“未使用”选项，如果从未使用过，变量和函数将被删除。这是我在命令行上的尝试: echo "function
c - ZLIB 压缩
我正在开发一个项目，如果我的磁盘出现问题，我将在使用 ZLIB 压缩内存块后将其发送到另一个磁盘。然后我计划下载该转储并用于进一步调试。这种压缩和上传将一次完成一个 block - 比如说 1024
c - LZW 压缩
LZW 压缩算法在压缩后增加了位大小: 这是压缩函数的代码: // compression void compress(FILE *inputFile, FILE *outputFile) {
c# - 压缩/加密的最佳实践
我的问题与如何在 3D 地形上存储大量信息有关。这些信息应该是 secret 的，因为它们非常庞大，也应该被压缩。我选择了文件存储，现在我想知道将对象数据加密/压缩(或压缩/加密)到文件的最佳做法。
java - 压缩/压缩android上的文件夹
我使用以下代码来压缩我的文件并且效果很好，但我只想压缩子文件夹而不是在压缩文件中显示树的根。 public boolean zipFileAtPath(String sourcePath, Strin

首页

博学

6Ren·AI

商城

unicode - Twitter 文本压缩挑战