gpt4 book ai didi

algorithm - 如何从纯文本中提取特征?

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:18:31 25 4
gpt4 key购买 nike

我正在编写一个文本解析器,它应该从产品描述中提取特征。

例如:

text = "Canon EOS 7D Mark II Digital SLR Camera with 18-135mm IS STM Lens"
features = extract(text)
print features

Brand: Canon
Model: EOS 7D
....

我这样做的方法是用结构化数据训练系统,并提出一个可以将术语映射到特征的倒排索引。这在大多数情况下都很好用。

当文本包含 50ml2kg 等度量值时,倒排索引将显示 2kg -> Size50ml -> 尺寸 例如。

这里的问题是,当我得到一个我以前从未见过的值时,比如 13ml,它不会被处理。但由于模式与尺寸相匹配,我们可以将其标记为尺寸。

我想通过预处理从文本中获得的标记并寻找我知道的模式来解决这个问题。因此,当识别出新模式时,必须将其添加到预处理中。

我想知道,这是解决此问题的最佳方法吗?或者有更好的方法吗?

最佳答案

未见案件的老问题。你可以训练你的抓取器抓取某些后缀(ml、kg 等)之前的任何类似数字的字符,并将它们视为大小。问题是拼写错误和其他格式不正确的文本可能会进入您的结构数据。对于如何处理您以前从未见过的值,没有正确的答案 - 您要么必须单独对它们进行 QC,要么围绕它们制定规则。这取决于您的数据集。

就识别模式而言,您要么必须手动输入它们,要么手动对大量记录进行分类并让算法学习它们。不确定这是否有帮助,但其中很多都非常依赖于您的数据。

关于algorithm - 如何从纯文本中提取特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37250822/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com