gpt4 book ai didi

太阳能标签云

转载 作者:行者123 更新时间:2023-12-05 01:14:03 24 4
gpt4 key购买 nike

我似乎被 Solr faceting-powered 标签云的逻辑所困。首先,我使用 OpenNLP 来解析我的文档并从中获取相关词,因此每个文档都被分成 n 个词。这基本上是我的 Solr 响应的样子:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>

我相信一定有办法把这里的文字整合起来。我首先想到的是这样的:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>

但是分面是不可能的,因为我不知道每个 docID 我会得到多少个单词字段,然后分面必须跨字段完成(我什至不确定它是否可能) .我正在尝试研究可能的答案,但我似乎被卡住了……最后,我需要对 n 个单词进行分面处理,以获取索引中的每个文档。非常感谢您的想法。

最佳答案

我建议使用一个多值的单词字段,并存储每个文档的单词列表。

具有无限数量的 word\d+ 字段会使事情复杂化。

如果您使用单个单词多值字段,您可以获得所有单词及其频率,这应该足以创建标签云。

关于太阳能标签云,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5737286/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com