csv - Prolog，读取一个csv文件并做一个谓词。找到所有-6ren

csv - Prolog，读取一个csv文件并做一个谓词。找到所有

转载作者：行者123 更新时间：2023-12-05 06:45:39

26

4

我正在使用 SWI-Prolog。

我有一个 csv 文件，其中第一行是探针，然后每一行都是一个样本:

    1007_s_at   1053_at 117_at ...
GSM102447.CEL   1   0   0 ...
GSM102449.CEL   1   0   0 ...
GSM102451.CEL   1   0   0 ...
GSM102455.CEL   1   0   0 ...
GSM102507.CEL   1   0   1 ...
...

实际文件有超过 20,000 列('probes')和不超过 150 行('samples')。

我想提取每个关系并将它们作为事实打印在另一个文件中。

例如:

%probe_value_in_sample(Probe,Sample_Strip,ProbeValue).
probe_value_in_sample('1007_s_at','GSM102447',1).
etc

到目前为止我的代码:

foreach(csv_read_file_row_list('GSE2109_BarCode.csv', List), assert(['samples'|List])).

probe_value_in_sample(Probe,Sample_Strip,ProbeValue):-
[samples|[samples,Empty|ProbeList]],Empty='', %the first value is empty
indexOf(ProbeList,Probe,IndexOfProbe),
[samples|[samples,Sample|SampleValues]],Sample\='',
nth0(IndexOfProbe,SampleValues,ProbeValue),
name(Sample, CharSample),
append(Char_Sample_Strip,".CEL",CharSample),
name(Sample_Strip,Char_Sample_Strip).

%IndexOf(MyList, MyElement, MyIndex).
indexOf([Element|_], Element, 0).
indexOf([_|Tail], Element, Index):-
indexOf(Tail, Element, Index1),
Index is Index1+1.

这似乎工作得很好，但实际上不起作用，或者它太慢以至于无法与 findall 一起使用。

知道可能是什么问题吗？

感谢您的帮助。

更新

感谢您的回复。

我已经定义了:

csv_read_file_row_list(File, List,Functor):-
csv_read_file_row(File,Row,[functor(Functor)]),Row=..List.

所以我有一个打开的文件而不是流，此时 Functor 变量是多余的。

我对您如何使用 maplist 感到困惑？而且我不能完全让它工作。

我试过:

:- dynamic samples/3.

csv_read_file_row_list(File, List,Functor):-
csv_read_file_row(File,Row,[functor(Functor)]),Row=..List.

prepare_db(File) :-
   ( nonvar(File) ; File = 'GSE2109_BarCode.csv' ),
   %open(File, read, S),
   csv_read_file_row_list(File,     ['thing',_Empty|ColKeys],'thing'),
 forall(csv_read_file_row_list(File,    ['thing',RowKeyDirty|Samples],'thing'),
    (   clean_rowkey(RowKeyDirty, RowKey),
        maplist(store_sample(RowKey), ColKeys, Samples)
    )).
%close(S).

store_sample(RowKey, ColKey, Sample) :-
  assertz(samples(RowKey, ColKey, Sample)).

clean_rowkey(RowKeyDirty, RowKey) :- append(RowKey, ".CEL", RowKeyDirty).

还有:

:- dynamic samples/3.

csv_read_file_row_list(File, List,Functor):-
csv_read_file_row(File,Row,[functor(Functor)]),Row=..List.

prepare_db(File) :-
( nonvar(File) ; File = 'GSE2109_BarCode.csv' ),
%open(File, read, S),
csv_read_file_row_list(File, ['thing',_Empty|ColKeys],'thing'),
forall(csv_read_file_row_list(File, ['thing',RowKeyDirty|Samples],'thing'),
    (   clean_rowkey(RowKeyDirty, RowKey),
        maplist(store_sample,[RowKey], ColKeys, Samples)
    )).
%close(S).

store_sample(RowKey, ColKey, Sample) :-
assertz(samples(RowKey, ColKey, Sample)).

clean_rowkey(RowKeyDirty, RowKey) :- append(RowKey, ".CEL", RowKeyDirty).

但都失败了。

最佳答案

你没有以正确的方式使用 assert/1。Prolog 在内存中有一个快速高效的 DB，但与任何 DB 一样，必须正确索引。当然，与任何语言一样，避免每次都重复完全相同的操作，而是在准备数据库时一次格式化数据。

:- dynamic samples/3.

prepare_db(File) :-
    ( nonvar(File) ; File = 'GSE2109_BarCode.csv' ),
    open(File, read, S),
    read_row(S, [_Empty|ColKeys]),
    forall(read_row(S, [RowKeyDirty|Samples]),
        (   clean_rowkey(RowKeyDirty, RowKey),
            maplist(store_sample(RowKey), ColKeys, Samples)
        )),
    close(S).

store_sample(RowKey, ColKey, Sample) :-
    assertz(samples(RowKey, ColKey, Sample)).

clean_rowkey(RowKeyDirty, RowKey) :- append(RowKey, ".CEL", RowKeyDirty).

此代码假定第一行的列数与所有其他行的列数非常相同。

read_row/2 必须获取一行并拆分成代码列表，我猜你的 csv_read_file_row_list/2 已经这样做了，但我无法在发布的代码中发现你的定义。 p>

索引在原子而不是代码列表上效果更好。 atom_codes/2 允许在这些表示之间切换。

编辑

从您的评论和其他发布的代码中，我可以看出我的回答不是很合适。这是经过修改和测试的代码段

:- [library(csv)].

:- dynamic samples/3.
:- dynamic column_keys/1.

prepare_db(File) :-
    retractall(column_keys(_)),
    retractall(samples(_,_,_)),
    ( nonvar(File) ; File = '/tmp/test.csv' ),
    forall(read_row(File, Row), store_row(Row)).

store_row(Row) :-
    Row =.. [row|Cols],
    (   column_keys(ColKeys)
    ->  Cols = [RowKeyDirty|Samples],
        clean_rowkey(RowKeyDirty, RowKey),
        maplist(store_sample(RowKey), ColKeys, Samples)
    ;   assertz(column_keys(Cols))
    ).

store_sample(RowKey, ColKey, Sample) :-
    assertz(samples(RowKey, ColKey, Sample)).

clean_rowkey(RowKeyDirty, RowKey) :-
    atom_concat(RowKey, '.CEL', RowKeyDirty).

read_row(File, Row) :-
    csv_read_file_row(File, Row, [separator(0' ), strip(true), convert(true)]),
    writeln(read_row(Row)).

适用于此测试文件

                 1007_s_at    1053_at   117_at
GSM102447.CEL    1            0         0
GSM102449.CEL    1            0         0
GSM102451.CEL    1            0         0
GSM102455.CEL    1            0         0
GSM102507.CEL    1            0         1

和产量

?- prepare_db(_).
read_row(row(1007_s_at,1053_at,117_at))
read_row(row(GSM102447.CEL,1,0,0))
read_row(row(GSM102449.CEL,1,0,0))
read_row(row(GSM102451.CEL,1,0,0))
read_row(row(GSM102455.CEL,1,0,0))
read_row(row(GSM102507.CEL,1,0,1))
true.

16 ?- samples(X,Y,Z).
X = 'GSM102447',
Y = '1007_s_at',
Z = 1 ;
X = 'GSM102447',
Y = '1053_at',
Z = 0 ;
...

当然，读取行的显示只是为了调试目的

关于csv - Prolog，读取一个csv文件并做一个谓词。找到所有，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22591030/

26

4

0

文章推荐：英文 Git 消息(在所有应用程序中，不仅是 bash)

文章推荐： typo3 - Typo3 Extension Builder 中的空白域建模页面

文章推荐： R 函数获取 rpart 应用的规则

java - 尽管有默认的 "OR"谓词，但 ViewerFilter 上的 "And"谓词？
我正在开发一个包含 TreeViewer 的 RCP 应用程序，我想在其上激活多个应与“OR”谓词配合使用的过滤器，例如: A |--B |--|--redColor |--|--blueColor
c++ - 我的类型在 std 函数中未能通过 enable_if 谓词。有没有办法 "debug"谓词？
我的问题是关于 enable_if通常标准库中的谓词，但我将在迭代器类型的上下文中构建它，因为这是我目前遇到此问题的地方。我有一个自定义迭代器类型 It , 这样 std::iterator_tra
Scala 谓词
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
Prolog 谓词 - 无限循环
我需要使用自然数为 2 的幂创建一个 Prolog 谓词。自然数是:0、s(0)、s(s(0)) 等等。例如: ?- pow2(s(0),P). P = s(s(0)); false. ?- po
iphone - 核心数据 ANY BETWEEN 谓词
我正在尝试创建一个 NSPredicate 来查找在特定日期范围内包含“ session ”的“项目”。我一开始尝试过这个: [NSPredicate predicateWithFormat:@"AN
Prolog powerset 谓词
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
java - 如何在JOOQ中编写多字段 `in`谓词？
在JOOQ中，我可以编写如下SQL这样的代码吗？我不知道如何编写具有多个字段的in谓词。 select some_value from t1 where (t1.id1, t1.id2) i
具有可变数量参数的 Prolog 谓词
我正在用 PROLOG 编写一个数独求解器。我希望求解器能够处理所有可能大小的数独，因此我自然需要构造采用可变数量参数的谓词。 (例如在数独中构建“ block ”。) 如何构造或模拟具有可变数量参数
java - 如何在Ebean中实现 "not in"谓词？
我有一个包含一些 id 的列表，我希望我的 ebean 查询排除这些 id。所以基本上我需要在 ebean 中使用“not in”谓词，就像 sql 一样，但遗憾的是找不到。还有其他方法可以实现这一目
c# - 如何创建一个通用方法来遍历对象的字段并将其用作 Where 谓词？
我正在构建一个通用接口(interface)以从类中公开选定的字符串属性，然后我想在每个字段中搜索文本，以检查它是否匹配。这是我的 IFieldExposer接口(interface): using
java - 搜索嵌套对象的规范/谓词
我将 Spring Boot 与 Spring JPA 和 Specification Executor 结合使用。我的规范/谓词组合成功地在我的类中搜索了简单的属性。但是，我在搜索其中的对象时遇到了
MySQL 并跳过 WHERE 谓词
如果下面的 last_name 为 NULL，它会跳过该列的 WHERE 比较以提高性能吗？ AND (last_name IS NULL OR sp.last_name LIKE CONCAT('%
c++ - 谓词...或其他术语？
出于好奇:如果我有一个接受多个参数(通常为 1 或 2)并返回 3 个值中的 1 个(而不是 bool 值 true 或 false)的类运算符(或函数等)，它是否仍应被调用谓词？还是模糊逻辑的特例？
返回装箱值类型是否为该类型的默认值的 C# 谓词
是否可以创建一个采用装箱值类型并返回该值类型是否等于该类型默认值的方法？所以我想创建一个具有以下签名的方法: bool IsDefault(object boxedValueType); 注意:当
swift - RealmSwift ALL 谓词
let selectedConsoles = ["Xbox", "Playstation 4"] let players = realm.objects(Person).filter("console
swift - NSSet 谓词
我正在尝试根据用户搜索文本过滤来自核心数据的结果，但效果很好。我正在努力做到有几个关键术语可以返回特定结果。我有一个Colour 实体，它与另一个实体ProjectColour 具有对多关系。 P
C++ is_str_empty 谓词
std::vector lines; typedef std::vector::iterator iterator_t; iterator_t eventLine = std::find_if(lin
c# - IndexOf 谓词？
我想在一个列表中找到一个元素的索引，该列表匹配某个谓词，有没有比以下更好的方法: var index = list.IndexOf(list.Find(predicate)); ? 最佳答案你在找
prolog - 高阶 "solutions"谓词
我正在使用缺少 findall 的高阶 Prolog 变体. 还有一个关于实现我们自己的问题 findall这里:Getting list of solutions in Prolog . 低效的实现
breeze - 如何测试空的 Breeze 谓词？
我正在使用 Breeze 过滤客户端请求的数据。我的代码看起来有点像这样: 客户端 - 创建过滤谓词 var predicates = []; var criteriaPredicate = null

首页

博学

6Ren·AI

商城

csv - Prolog，读取一个csv文件并做一个谓词。找到所有