python - 如何从 spacy 中的转录中表示未知/空白词？-6ren

python - 如何从 spacy 中的转录中表示未知/空白词？

转载作者：太空宇宙更新时间：2023-11-04 04:06:19

25

4

我正在处理音频抄本中的文本，其中有一些未知词。每个未知词都有标记(例如“他不认识商店”)。我正在寻找表示“未知”词的最佳方式，以便将 spacy 的句子依赖解析搞得一团糟。

什么是最好的替代品来增加 spacy 的句子依赖解析器在最广泛的句子范围内工作最好的可能性？是空格/' ' 或 '___' 或 '...' 还是无关紧要？\发生的时间/地点没有结构。

谢谢!

最佳答案

如果单词是未知的，最好简单地删除它们并截断多余的空间。如果未知词/标记不包含在 spacy 词汇表中，它们无论如何都会搞乱依赖解析，用特殊字符替换它们也是如此。

He / to the store

输出:

He ROOT
/ punct
to prep
the det
store pobj

然而，

He to the store

输出:

He ROOT
to prep
the det
store pobj

如果你删除它们，那么基本上你会得到一个对转录的其余部分正确的依赖解析。

关于python - 如何从 spacy 中的转录中表示未知/空白词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57315220/

25

4

0

文章推荐： python - 元组 : TypeError yet success 中的变异列表

文章推荐： linux - Bash 脚本 : Kill one process when other completes

文章推荐： python - 如何从 TableModel 添加标题到 qml TableView

java - 使用 Java 转录
有谁知道是否有可能将俄语输入转录为拉丁语？有什么框架支持吗？我正在搜索字符集，但它不支持这种情况提前致谢。最佳答案 Map translit = new HashMap<>(); stati
java - Solr:支持希腊语的音译/转录
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样，当我搜索 Stefan 时，我想找到这些文档。是否支持希腊语单词的音译/转录？到目前为止，我已经尝试过 solr.AS
python - pyspeech (python) - 转录 mp3 文件？
我想使用 pyspeech API 转录 mp3(语音到文本)。不过，我不知道这是否可行。是吗？怎么办？最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
tensorflow - 使用 Tensorflow 进行 IPA(国际音标)转录
我正在考虑设计一个软件平台，以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示，大约有 1,000 种语言从未被各自语言群体之外的人研究过。我的目标是利用 TensorFlow 创建一个平
azure - Azure 转录 JSON 文件的 VTT 输出
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
swift - Swift 中的 DNA 到 RNA 转录
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上，如果 DNA 有一个“T”，我会用“U”代替它。我的代码是: func toRNA(DNA: String)
linux - 通过 AWS CLI 进行 AWS 转录
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务？通
ios - iOS 应用程序上的 SFSpeechRecognizer(Siri 转录)超时错误
在我的 iOS 应用程序中，我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。多个来源，包括 documentation已声明语音 API(更具体地说是 SFSpee
Azure Batch 转录 : Error when downloading the recording URI. 状态代码:冲突(下载失败)
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
Azure Batch 转录 : Error when downloading the recording URI. 状态代码:冲突(下载失败)
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
speech-to-text - 使用 Bing Speech API(语音到文本)转录 MP3 音频文件
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk

首页

博学

6Ren·AI

商城

python - 如何从 spacy 中的转录中表示未知/空白词？