gpt4 book ai didi

perl - 将所有文档与 Perl 的 Text::DocumentCollection 中的其他文档进行比较

转载 作者:行者123 更新时间:2023-12-02 02:20:27 24 4
gpt4 key购买 nike

给定 Text::DocumentCollection 中的文档集合在 Perl 中,我想计算 cosine similarity在集合中的任意两个文档之间使用 Text::Document .

我认为这可能可以使用 EnumerateV 和回调来完成,但我无法弄清楚细节。 ( This SO question 很有帮助,但我仍然卡住了。)

具体来说,假设集合存储在test.db中如下:

#!/usr/bin/perl -w
use Text::DocumentCollection;
use Text::Document;

$c = Text::DocumentCollection->new( file => 'test.db' );

my $text = 'Stack Overflow is a programming | Q & A site that’s free. Free to ask | questions, free to answer questions|, free to read, free to index';

my @strings = split /\|/, $text;
my $i=0;

foreach (@strings) {
my $doc = Text::Document->new();
$doc->AddContent($_);
$c->Add(++$i,$doc);
}

现在假设我需要读取 test.db 并计算所有文档组合的余弦相似度。 (除了通过存储的数据库文件,我无法访问在上面的代码中创建的文档。)

我认为答案是构建一个子程序,该子程序通过 EnumerateV 中的回调访问,我猜该子程序也调用了 EnumerateV 但我没有无法弄清楚。

最佳答案

你可能想从这样的事情开始:

$c->EnumerateV(sub {
my ($c, $k1, $d1) = @_;
$c->EnumerateV(sub {
my ($c, $k2, $d2) = @_;
return if exists $dist{$k1.$k2};
$dist{$k1.$k2} = $dist{$k2.$k1}= cosine_dist($d1, $d2);
});
});

关于perl - 将所有文档与 Perl 的 Text::DocumentCollection 中的其他文档进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8438964/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com