gpt4 book ai didi

mysql - 在solr索引中保留关系数据库结构?

转载 作者:搜寻专家 更新时间:2023-10-30 23:24:18 26 4
gpt4 key购买 nike

我能够通过 solr DIH 导入数据。

在我的数据库中我有 4 个表:

threads: id, user_id, country_id

tags: id

thread_tag_map: thread_id, tag_id

countries: id

posts: id, thread_id

我希望 solr 中的每个文档都包含:

thread_id
tag_id
country_id
post_id

例如:

thread_id: 1
tag_id: 23
tag_id: 34
country_id: 43
post_id: 4
post_id: 23
post_id: 23

我应该如何映射它?

我无法为此配置 data-config.xml。我没有成功地遵循 DIH 教程。

这是我的 schema.xml:

<schema name="example" version="1.2">
<types>
<fieldType name="string" class="solr.StrField" sortMissingLast="true"/>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="uuid" class="solr.UUIDField" indexed="true" />
<fieldType name="text_rev" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ReversedWildcardFilterFactory" withOriginal="true"
maxPosAsterisk="3" maxPosQuestion="2" maxFractionAsterisk="0.33"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
</types>


<fields>
<field name="id" type="uuid" indexed="true" stored="true" default="NEW"/>
<field name="threads.title" type="text_rev" indexed="true" stored="true"/>
<field name="posts.body" type="text_rev" indexed="true" stored="true"/>
<dynamicField name="*id" type="int" indexed="false" stored="true"/>
</fields>

<uniqueKey>id</uniqueKey>

<defaultSearchField>posts.body</defaultSearchField>

<solrQueryParser defaultOperator="OR"/>
</schema>

最佳答案

您似乎只想定义这些字段:

线程编号

标签编号

国家代码

post_id

作为 schema.xml 中的索引“字符串”字段。 post_id 应该是多值的=“真”。请参阅默认的 schema.xml 文件以获取格式化指南。或者……

http://wiki.apache.org/solr/SchemaXml

这里唯一棘手的事情实际上是查询数据库,而不是配置 solr。只需编写一个 JOIN 查询,您就可以在其中获取所需的所有 ID,并使用适用于您的语言的 solr 客户端库来构建简单的数据结构,例如 (json-y):

[{"thread_id":"1",
"tag_id":"14",
"country_id":"2",
"post_id":["5",
"7",
"18"
]
},...and more...]

由于 Solr 不是 RDBMS,您必须通过执行多个查询或使用子查询来伪造搜索。另一种选择可能是使用 Solr 通过全文搜索检索您的主题或帖子,然后使用其中的 ID 运行 MySQL 查询,这将为您提供所需的一切。

关于mysql - 在solr索引中保留关系数据库结构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1900816/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com