- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我想知道像 Open Calais 这样的语义服务是如何从一段文本中找出公司名称或人名、技术概念、关键字等的。是因为他们有一个大型数据库来匹配文本吗?
例如,Zemanta 这样的服务如何知道要为一段文本推荐哪些图像?
最佳答案
来自 OpenCalais 的 Michal Finkelstein。
首先,感谢您的关注。我会在这里回复,但我也鼓励您在 OpenCalais 论坛上阅读更多内容;那里有很多信息,包括但不限于: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn也可以随时在 Twitter (@OpenCalais) 上关注我们,或发送电子邮件至 team@opencalais.com
现在回答:
OpenCalais 基于自然语言处理和文本分析领域十年的研究和开发。
我们支持完整的“NLP 堆栈”(我们喜欢这样调用它):从文本标记化、词法分析和词性标记,到浅层解析和识别名词和动词短语。
当我们寻找实体(又名实体提取、命名实体识别)时,语义会发挥作用。为此,我们有一个复杂的基于规则的系统,它结合了发现规则和词典/词典。这种组合使我们能够识别公司/个人/电影等的名称,即使它们不存在于任何可用列表中也是如此。
对于最著名的实体(例如个人、公司),我们还在文章级别执行照应解析、交叉引用和名称规范化/规范化,因此我们将知道“John Smith”和“Mr.例如,Smith' 可能指的是同一个人。所以对您的问题的简短回答是 - 不,这不仅仅是与大型数据库进行匹配。
事件/事实真的很有趣,因为它们使我们的发现规则更深一层;我们找到实体之间的关系并用适当的类型标记它们,例如并购(两家或多家公司之间的关系)、就业变化(公司与人之间的关系)等。不用说,事件/事实提取对于仅基于词典的系统是不可能的。在大多数情况下,我们的系统调整为以精度为导向,但我们始终试图在准确性和完整性之间保持合理的平衡。
顺便说一句,本月晚些时候将推出一些很酷的新元数据功能,敬请期待。
问候,
米迦勒
关于python - Zemanta 和 Open Calais 等内容发现引擎如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22059/
我正在尝试使用 Zemanta的小部件和 Redactor HTML 编辑器一起。我无法让 Zemanta 找到 Redactor 的 iframe/content 并能够在单击其中一个小部件后向其发
我想知道像 Open Calais 这样的语义服务是如何从一段文本中找出公司名称或人名、技术概念、关键字等的。是因为他们有一个大型数据库来匹配文本吗? 例如,Zemanta 这样的服务如何知道要为一段
我是一名优秀的程序员,十分优秀!