- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 postgreSQL 数据库中工作,我有文本列,其中包含俄语、中文、韩语、英语等各种语言。虽然我们的应用程序可以很好地处理这些语言,但我们在处理非 UTF-8 字符时遇到了问题。
例如,如果您看到我在 notepad++ 中完成编码 > 以 UTF-8 编码的图像,它会整齐地显示所有无法识别的字符。
但是,我们面临着在 postgres 中将此类记录标记为不可处理的问题。类似标志的东西也应该做,但我正在尝试类似下面的东西,但它也标记有效的俄罗斯记录,而记事本++ 明确显示隐藏/非 UTF-8 字符。
这些字符的奇怪之处在于它们不会显示常规选择查询,但是当我将它们转换为“UTF-8”时,它们会显示如下。
尝试过这样的事情(在查询下方)但它似乎不起作用,即给我所需的输出。期望为具有无效隐藏 HTML 引用但不会丢失有效文本(如快照中的有效俄语句子)的此类记录设置标志。应该只能清楚地识别此类文本。
select text, text ~ '[^[:ascii:]]', text ~ '^[\x00-\x7F]*$'
from sample_data;
示例数据 -
"Я не наркоман. Это у меня всегда, когда мне афигитительно. А если серьёзно, это интересно,…"
"Ya le dieron amor a la foto de instagram de mi #UberCALAVERITA?"
"Executive Admininstrative Assistant in Toronto, ON for a Group"
"Сегодня валютные стратеги BMO обновили прогнозы по основным валютам на ближайшие пять кварталов (на конец периода): читать далее…"
"Flicitations Gestion d'actifs pour 6 Trophes #FundGradeA+2016 de fonds communs de placement :"
最佳答案
这个答案可能会帮助您回去解决问题。它不会直接帮助您朝您询问的方向前进。
查看 Flicitations 和 F\302\202licitations,转义符看起来像八进制,这可能是您的“IDE”和/或 convert_to
函数的表示选择。从八进制,\302\202 是 0xC2 0x82,decoding as UTF-8给出 U+0082。在 Unicode 中,这是一个控制字符,在 ISO 8859-1 中,它是一个非字符,或者可以解释为什么某些渲染使它不可见或不占用空间。
现在,Google 告诉我 Flicitations 几乎就像一个法语单词,Félicitations .所以,也许有一个字符集和编码,其中 é 被编码为 0x82。 Wikipedia helps here—确实有:IBM850,已经用于一些法语文本。
因此,似乎有人对用户的文本处理不当,导致数据丢失。 文本编码的基本规则是文本字节必须使用与写入时相同的编码来读取。不要猜测;不要猜测;询问或引用标准、规范、文档或约定。也许您可以返回并找到行为不当的进程/代码——至少可以防止将来的数据丢失。
“处理非 UTF-8 字符”:实际上并没有任何非 UTF-8 字符。 UTF-8 是 Unicode 字符集的一种编码。有些地方有异常(exception),但实际上,Unicode 拥有所有字符,而 UTF-8 可以对它们进行编码。因此,如果您认为存在非 UTF-8 字符,则说明编写者不符合要求或读者使用了错误的编码。
关于postgresql - 识别隐藏的非 UTF8 编码字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44419001/
代码如下: http://jsfiddle.net/t2nite/KCY8g/ 我正在使用 jquery 创建这些隐藏框。 每个框都有一些文本和一个“显示”和“隐藏”按钮。我正在尝试创建一个“显示/隐
我正在尝试做某事。如果单击一个添加 #add-conferance 然后菜单将显示.add-contact。当点击隐藏然后它显示隐藏。我也将 setTimeout 设置为 7sec,但我希望当我的鼠标
我有一个多步骤(多页?)表单,只要用户按下“下一步”或“上一步”按钮,表单字段就会通过 div 显示和隐藏。 我只想禁用第一个 div (div id="page1"class="pageform")
我有一个使用 IIS 6 和 7 的当前系统,用 ASP.NET 和 .NET 4 中的 C# 编写。 My purpose is to hide the url completely (as per
我正在建立一个网站,并有一个幻灯片。幻灯片有标题和索引,覆盖整个页面。当覆盖被激活时,标题需要消失。当覆盖层被停用时,通过单击退出按钮、缩略图链接或菜单链接,字幕必须返回。 这就是我目前所拥有的
我正在尝试为显示/隐藏功能制作简单的 jquery 代码。但我仍然做错了什么。 $(document).ready(function(){ $('.arrow').click(function
我有一个自定义对话框并使用它来代替 optionMenu。所以我希望 myDialog 表现得像菜单,即在按下菜单时显示/隐藏。我尝试了很多变体,但结果相同: 因为我为 myDialog 设置了一个
在我的项目中,我通过 ViewPager 创建我的 tabBar,如下所示: MainActivity.java mViewPager = (ViewPager) findViewById(R.id.
我目前正在使用一个 Excel 表,我将第 1-17 行分组并在单元格 B18 中写入了一个单元格值。我想知道当我在展开/折叠行时单击 +/- 符号时是否有办法更改 B18 中的值。 例如:我希望 B
我想创建一个按钮来使用 VBA 隐藏和取消隐藏特定组。我拥有的代码将隐藏或取消隐藏指定级别中的所有组: Sub Macro1() ActiveSheet.Outline.ShowLevels RowL
我是 VBA 新手。我想隐藏从任何行到工作表末尾的所有行。 我遇到的问题是我不知道如何编程以隐藏最后写入的行。 我使用下一个函数知道最后写入的单元格,但我不知道在哪里放置隐藏函数。 last = Ra
我想根据另一个字段的条件在 UI 上隐藏或更新一个字段。 例如,如果我有一个名为 Color 的字段: [PXUIField(DisplayName="Color")] [PXStringList("
这是我尝试开始收集通常不会遇到的 GCC 特殊功能。这是@jlebedev 在另一个问题中提到g++的“有效C++”选项之后, -Weffc++ This option warns about C++
我开发了一个 Flutter 应用程序,我使用了 ProgressDialog小部件 ( progress_dialog: ^1.2.0 )。首先,我展示了 ProgressDialog小部件和一些代
我需要在 API 17+ 的同一个 Activity(Fragment) 中显示/隐藏状态栏。假设一个按钮将隐藏它,另一个按钮将显示它: 节目: getActivity().getWindow().s
是否可以通过组件的 ts 代码以编程方式控制下拉列表的显示/隐藏(使用 Angular2 清楚)- https://vmware.github.io/clarity/documentation/dro
我想根据 if 函数的结果隐藏/显示 NiceScroll。 在我的html中有三个部分,从左到右逐一滚动。 我的脚本如下: var section2 = $('#section2').offset(
我有这个 jquery 代码: $(document).ready(function(){ //global vars var searchBoxes = $(".box"); var searchB
这个问题已经有答案了: Does something like jQuery.toggle(boolean) exist? (5 个回答) 已关闭 6 年前。 在 jQuery 中(我当前使用的是 1
我在这样的选择标签上使用 jQuery 的 selectMenu。 $('#ddlReport').selectmenu() 在某些情况下我想隐藏它,但我不知道如何隐藏。 这不起作用: $('#ddl
我是一名优秀的程序员,十分优秀!