- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试使用日语词法分析器 MeCab在 C# 程序(Visual Studio 2010 Express、Windows 7)中,编码出了点问题。如果我的输入(粘贴到文本框中)是这样的:
一方、広義の「ネコ」は、ネコ類(ネコ科動物)の一部、あるいはその全ての獣を指す包括的名称を指す。
然后我的输出(在另一个文本框中)如下所示:
? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*( åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*) åè©ž,サ変接続,*,*,*,*,*? åè©ž,サ変接続,*,*,*,*,*????????????????????????? åè©ž,サ変接続,*,*,*,*,*EOS
我猜这是其他编码的文本被误认为是 UTF-8 编码的文本。但是假设它是 EUC-JP 并使用 Encoding.Convert 将其转换为 UTF-8 不会改变输出;假设它是 Shift-JIS 并做同样的事情会产生不同的乱码。此外,虽然它确实在处理文本——这就是 MeCab 输出应该被格式化的方式——它似乎也没有将输入解释为 UTF-8。如果它这样做,输出中就不会出现所有以单字符“化合物”开头的相同行,显然无法识别。
当我通过 MeCab 的命令行运行该句子时,我又得到了一组看起来不同的乱码。但是,同样,它只是左边的一排问号和圆括号,所以 Windows 命令行不支持带有日文字符的字体不仅仅是问题;同样,它只是不以 UTF-8 格式读取输入。 (我确实以 UTF-8 模式安装了 MeCab。)
代码的相关部分如下所示:
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)]private extern static IntPtr mecab_new2(string arg);[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)][return: MarshalAs(UnmanagedType.AnsiBStr)]private extern static string mecab_sparse_tostr(IntPtr m, string str);[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl)]private extern static void mecab_destroy(IntPtr m);private string meCabParse(string jpnText){ IntPtr mecab = mecab_new2(""); string parsedText = mecab_sparse_tostr(mecab, jpnText); mecab_destroy(mecab); return parsedText;}
(关于摆弄看似合理的事物以查看它们是否有所作为,我尝试将“UnmanagedType.AnsiBStr”切换为“UnmanagedType.BStr”,这给出了错误“AccessViolationException was unhandled”,并添加“CharSet=CharSet.Unicode”到 DllImport 参数,这将输出变成了“EOS”。)
这就是我进行转换的方式:
// 65001 = UTF-8 codepage, 20932 = EUC-JP codepageprivate string convertEncoding(string sourceString, int sourceCodepage, int targetCodepage){ Encoding sourceEncoding = Encoding.GetEncoding(sourceCodepage); Encoding targetEncoding = Encoding.GetEncoding(targetCodepage); // convert source string into byte array byte[] sourceBytes = sourceEncoding.GetBytes(sourceString); // convert those bytes into target encoding byte[] targetBytes = Encoding.Convert(sourceEncoding, targetEncoding, sourceBytes); // byte array to char array char[] targetChars = new char[targetEncoding.GetCharCount(targetBytes, 0, targetBytes.Length)]; //char array to targt-encoded string targetEncoding.GetChars(targetBytes, 0, targetBytes.Length, targetChars, 0); string targetString = new string(targetChars); return targetString;}private string meCabParse(string jpnText){ // convert the text from the string from UTF-8 to EUC-JP jpnText = convertEncoding(jpnText, 65001, 20932); IntPtr mecab = mecab_new2(""); string parsedText = mecab_sparse_tostr(mecab, jpnText); // annnd convert back to UTF-8 parsedText = convertEncoding(parsedText, 20932, 65001); mecab_destroy(mecab);}
建议/ mock ?
最佳答案
我偶然发现了这个线程,正在寻找一种方法来做同样的事情。我以您的代码为起点,this blog post了解如何编码 UTF8 字符串。
以下代码为我提供了正确编码的输出:
public class Mecab
{
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet=CharSet.Unicode)]
private extern static IntPtr mecab_new2(string arg);
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet = CharSet.Unicode)]
private extern static IntPtr mecab_sparse_tostr(IntPtr m, byte[] str);
[DllImport("libmecab.dll", CallingConvention = CallingConvention.Cdecl, CharSet = CharSet.Unicode)]
private extern static void mecab_destroy(IntPtr m);
public static String Parse(String input)
{
IntPtr mecab = mecab_new2("");
IntPtr nativeStr = mecab_sparse_tostr(mecab, Encoding.UTF8.GetBytes(input));
int size = nativeArraySize(nativeStr) - 1;
byte[] data = new byte[size];
Marshal.Copy(nativeStr, data, 0, size);
mecab_destroy(mecab);
return Encoding.UTF8.GetString(data);
}
private static int nativeArraySize(IntPtr ptr)
{
int size = 0;
while (Marshal.ReadByte(ptr, size) > 0)
size++;
return size;
}
}
关于c# - 试图让 libmecab.dll (MeCab) 与 C# 一起工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6365931/
我想要的是能够在输入获得焦点或失去焦点时执行某些操作(两个事件)。 我尝试了以下方法,但这按事件单独工作(单独编码时):仅在焦点上,或仅在失去焦点时。 另外,我希望它尽可能跨平台(包括触摸设备),这是
我分别研究了TableView的Filtering和Pagination。 过滤: this帖子帮助我满足了我的需要 分页: this , this帖子也帮助了我 我想像这样将它们组合在一起: 详情-
我是 TDD 方法的新手,所以我想知道是否有人经历过这种机智可以启发我一点。我想获得一些关于如何一起使用 UML 和 TDD 方法的线索。 我已经习惯了:用 UML 设计 --> 生成骨架类(然后保持
我尝试使用入口点和 cmd 设置 Docker。 FROM debian:stretch RUN apt-get update && \ apt install gnupg ca-certificat
我想要一个 Class 对象,但我想强制它所代表的任何类扩展类 A 并实现接口(interface) B。 我能做到: Class 或者: Class 但我不能两者兼得。有办法做到这一点吗? 最佳答案
我是 Rubymine 的长期用户。 Rubymine 非常适合基于 html 的 Rails 应用程序,但我现在正在做更多的 SPA 客户端工作(例如 javascript/react)。我发现我真
我注意到我使用的某个脚本依赖于原型(prototype)。 (Lightbox 2) 它会与 jQuery 在同一页面上一起工作吗?有没有办法确保它们不冲突? 最佳答案 可以,但你需要采取 speci
我需要对表中显示的数据进行分页并通过 ajax 调用获取它 - 这是我通过使用具有以下配置的 dataTables 插件来完成的 - bServerSide : true; sAjaxSource :
我是 gtk 新手,所以想知道在 C 语言中归档和 gtk 是否可以一起使用?例如,我可以从 .txt 文件中读取,然后在相同的代码中使用 gtk 在标签或其他内容中显示它吗?如果是,怎么办? 谢谢!
有没有人设法得到Bck2Brwsr最近与 Java 8/JavaFX 8 一起工作?有没有兼容的机会?我找不到太多关于它的信息,也没有一个好的起点。使用给定的 Maven archetype我遇到了几
在我的应用程序中,用户通过 openid(与 stackoverflow 相同)登录/注销。 我想通过 oauth 向第三方应用程序开放我的应用程序。 如何创建我的 openid-consumer 应
我在启动和运行 Hibernate 和 Spring 时遇到一些问题。我有一个网络服务器项目,它使用了其他几个具有持久实体的项目。我遇到的问题是,对于存储在 WEB-INF/libs 内的另一个 ja
我有 @ControllerAdvice 类,它处理一组异常。我们还有一些其他异常,这些异常用 @ResponseStatus 注释进行注释。为了结合这两种方法,我们使用博客文章中描述的技术:http
我想在屏幕上使用进度条而不是 progressDialog。 我在我的 XML View 文件中插入了一个进度条,我想让它在加载时显示并在不加载时禁用它。 所以我使用的是可见的,但它发生了,所以其余的
CREATE TABLE `users` ( `id` int(11) AUTO_INCREMENT, `academicdegree` varchar(255),
IN() 中使用的查询返回:1, 2。然而,整个查询返回 0 行,这是不可能的,因为它们存在。我在这里做错了什么? SELECT DISTINCT li.auto_id FROM links
亲们, 我如何在使用 Jade 生成的表单上实现 jQuery 样式?我想做的是美化 表单并使它们可点击。我在 UI 方面很糟糕。期间。 我如何在表单上实现这个可选择的方法? http://jquer
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我可以: auto o1 = new Content; 但不能: std::shared_ptr o1(new Content); std::unique_ptr o1(new Content); 我
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
我是一名优秀的程序员,十分优秀!