- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我目前有大量医疗记录,其中包含需要翻译的医学术语。出于成本考虑,我们不想为每条记录翻译每个术语。例如,如果我们发现一条记录中的术语已经在以前的记录中频繁出现,这意味着这些术语可能已经在以前的记录中翻译过,那么我们就不想再翻译它们了。我被要求设计一个程序来实现这个目标。我得到的提示是我可能需要将记录分解为字母级别,并且可能需要矩阵来解决这个问题。我真的是编程的初学者。因此,我在这里寻求帮助。残酷的想法/建议现在就足够了。谢谢。
[由 Spektre 编辑] 从评论中移出
我的问题归结为:
假设有两个句子A
和B
。 A
有 m
个标记 (a1, a2, ......, am)
而 B
有 n
代币 (b1, b2, ……, bn)
。 A
和 B
可能有共同的标记。所以我需要一个函数来估计 B 中标记未被 A 覆盖的可能性。
标记已经存储在字典中。
如何实现?
最佳答案
所以如果我没看错的话,你想知道 bi
不在 A
中.
我不使用 python 编写代码,但我看到它是这样的(使用 C++ 之类的语言)
bool untranslated(int j,int m,int n,string *a,string *b)
{
// the dictionaries are: a[m],b[n]
for (int i=0;j<m;i++) // inspect all tokens of A
if (b[j]==a[i]) // if b[j] present in A
return false;
return true;
}
现在,如果字典相当大,那么您需要将此线性搜索更改为二分搜索。此外,为了加快速度(如果单词很大),您需要使用哈希( HashMap )进行匹配。根据您的语言,您不能天真地将单词与 ==
进行比较。而是实现一些将单词转换成它的单纯语法形式并存储到字典中的函数。实现起来可能非常复杂。
现在整个句子的概率是:
// your dictionaries:
const int m=?,n=?;
string A[m],string B[n];
// code:
int j; float p;
for (p=0.0,j=0;j<n;j++) // test all words of B
if (untranslated(j,m,n,A,B)) p++; // and count how many are untranslated
p/=float(n); // normalize p to <0,1> its your probability that sentence B is not in A
结果概率 p
在 <0,1>
范围内所以如果你想要百分比而不是乘以 100
.
[Edit1] 出现 bi
那是完全不同的问题,但也相对容易解决。它与计算直方图相同:
为 A
中的每个单词添加计数器词典
所以A的每条记录都是这样的:
struct A_record
{
string word;
int cnt;
};
int m=0;
A_record a[];
进程 B
句子
在每个单词上 bi
查字典A
.如果不存在,则将其添加到字典并将其计数器设置为 1
.如果存在,则只需将其计数器加一。
const int n=?; // input sentence word count
string b[n]={...}; // input sentence words
int i,j;
for (i=0;i<n;i++) // process B
for (j=0;j<m;j++) // search in A (should be binary search or has-map search)
if (b[i]==a[j].word)
{ a[j].cnt++; j=-1; break; } // here a[j].cnt is the bi occurrence you wanted if divided by m then its probability <0,1>
if (j<0)
{ a[m].word=b[i]; a[m].cnt=1; m++; } // here no previous occurrence of bi
现在,如果您只想以前出现的 bi
然后查看匹配的a[j].cnt
在搜索过程中。如果你想出现任何 b[i]
整个文本处理后,整个文本中的单词查看同一个计数器。
关于python - 跳过 EMR 的重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56403804/
我的算法- private static MyList skip$DeleteItem(MyList L , int M , int N){ MyList curr = L; MyLi
我正在 SWI-Prolog 下开发,但我的目标是 Erlog (https://github.com/rvirding/erlog)。我需要一种使用非标准 Prolog 语法的方法。 有没有办法
我正在尝试从应用程序下载一大堆文件。它的shell命令是“下载文件名”。 我有一个文本文件,其中包含必须下载的所有文件名。我要做的就是运行一个脚本/命令,以便在执行上述命令时 1.从文本文件中提取文件
我试图循环遍历所有用户的评论,但使用 if 语句查找特定值。问题是我的应用程序崩溃了,因为一些用户没有发表评论,因此我得到“无法读取‘收集’未定义的属性”。如何跳过 if 语句的未定义值?代码如下:
我们有按年份分区的索引,例如: items-2019 items-2020 考虑以下数据: POST items-2019/_doc { "@timestamp": "2019-01-01" }
我只是编写一个页面来按实体编号查看每个 ASCII 条目,我想知道是否有一种更简单/更干净的方法来跳过不需要的数字。 var x = new Ar
我希望能够普遍使用重复条目,但也能够跳过特定日期。例子: ** TODO swim practice SCHEDULED 但是,我提前知道 2013-12-25 不会有练习。但是,当我将项目标
如何跳过像这样的 for 循环的一次迭代: for (int i = 65; i <= 90; i++) { if (!(i == 73)) { uniq.add((char) i);
这个问题已经存在: Scanner issue when using nextLine after nextXXX [duplicate] 已关闭 9 年前。 ask=1; while(ask==1)
我在使用一个程序时遇到了一些麻烦,我应该允许用户在程序中输入任意数量的数字,直到他们不再想要为止。然后程序应该计算输入数字的平均值和最大值。我哪里做错了? import java.util.Scann
我有一个名为segments的 Sprite 数组,我想在每个循环中跳过segments的第一个元素。我目前正在这样做: var first = true; for each (var segment
我目前正在编写一个 for 循环来遍历包含 38 个元素的 2D。然而,其中一些元素为空,我希望 for 循环简单地跳过它们(因为在我正在解决的难题中,它们没有与它们相关的移动)。快速搜索表明,我可以
我想使用pre-commit处理我的 git 项目的 git hooks。但是,当我使用它时,git commit 命令不断跳过 unittest 执行: (smartexchange) trnboo
这个问题在这里已经有了答案: Does scanf() take '\n' as input leftover from previous scanf()? (1 个回答) 关闭 9 年前。 我正在
我正在迭代 csv 文件中的每一行,并仅选择/计算满足条件的行。但是,当连续出现错误时,它会停止循环。有没有办法告诉 python 跳过错误并移动到下一行?我使用了 try 函数但没有工作。我的代码是
感谢您提供的优秀示例,我试过了,它按我的预期工作。很高兴看到有人了解问题的本质。但是,我认为我应该用 Lift 标记问题,因为我正在使用 Lift 框架,这就是(仍然)发生这个问题的地方(尽管我仍然认
大家好,我正在编写一个算法来从 NodeTree 中删除具体分支(例如 DSF)。如果您选择 Node 的名称,算法将检查该 Node 是否是其他 Node 的父 Node ;如果是,它会获取该 No
附有代码和输出。 基本上它是第二次跳过我的输入。就像我启动代码一样,它让我输入一个选项,然后第二次跳过输入,直接转到开关的默认情况。 然后第三次它就会允许我输入。不明白为什么。 任何帮助将不胜感激。
我在 JavaScript 中有一个 for 循环,它会定期跳过间隔,但我无法确定原因。 console.log(parseInt($('input.num-to-add').val())); num
我正在 JasperSoft 中填写参数。在我的报告中我有参数:参数_1、参数_2、参数_3 int a; for (a = 0; a < headers.length; a++) {
我是一名优秀的程序员,十分优秀!