gpt4 book ai didi

python - Zemanta 和 Open Calais 等内容发现引擎如何工作?

转载 作者:数据小太阳 更新时间:2023-10-29 07:09:59 24 4
gpt4 key购买 nike

我想知道像 Open Calais 这样的语义服务是如何从一段文本中找出公司名称或人名、技术概念、关键字等的。是因为他们有一个大型数据库来匹配文本吗?

例如,Zemanta 这样的服务如何知道要为一段文本推荐哪些图像?

最佳答案

来自 OpenCalais 的 Michal Finkelstein。

首先,感谢您的关注。我会在这里回复,但我也鼓励您在 OpenCalais 论坛上阅读更多内容;那里有很多信息,包括但不限于: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn也可以随时在 Twitter (@OpenCalais) 上关注我们,或发送电子邮件至 team@opencalais.com

现在回答:

OpenCalais 基于自然语言处理和文本分析领域十年的研究和开发。

我们支持完整的“NLP 堆栈”(我们喜欢这样调用它):从文本标记化、词法分析和词性标记,到浅层解析和识别名词和动词短语。

当我们寻找实体(又名实体提取、命名实体识别)时,语义会发挥作用。为此,我们有一个复杂的基于规则的系统,它结合了发现规则和词典/词典。这种组合使我们能够识别公司/个人/电影等的名称,即使它们不存在于任何可用列表中也是如此。

对于最著名的实体(例如个人、公司),我们还在文章级别执行照应解析、交叉引用和名称规范化/规范化,因此我们将知道“John Smith”和“Mr.例如,Smith' 可能指的是同一个人。所以对您的问题的简短回答是 - 不,这不仅仅是与大型数据库进行匹配。

事件/事实真的很有趣,因为它们使我们的发现规则更深一层;我们找到实体之间的关系并用适当的类型标记它们,例如并购(两家或多家公司之间的关系)、就业变化(公司与人之间的关系)等。不用说,事件/事实提取对于仅基于词典的系统是不可能的。在大多数情况下,我们的系统调整为以精度为导向,但我们始终试图在准确性和完整性之间保持合理的平衡。

顺便说一句,本月晚些时候将推出一些很酷的新元数据功能,敬请期待。

问候,

米迦勒

关于python - Zemanta 和 Open Calais 等内容发现引擎如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22059/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com