neural-network - 使用预训练的词嵌入 - 如何为未知/OOV token 创建向量？-6ren

neural-network - 使用预训练的词嵌入 - 如何为未知/OOV token 创建向量？

转载作者：行者123 更新时间：2023-12-03 19:32:11

24

4

我不想加pre-trained embeddings到一个模型。但似乎没有词表外 (OOV) 代币。不存在不可见词的向量。

那么我能做些什么来处理我遇到的 OOV token 呢？我有一些想法，但似乎都不是很好:

我可以为这个 token 创建一个随机向量，但理想情况下我希望向量在现有模型的逻辑内。如果我只是随机创建它，我担心该向量可能会与非常频繁的单词非常相似，例如“the”、“for”、“that”等，这不是我的意图。

或者我应该只用纯零来初始化向量？

另一个想法是对其他现有向量的 token 进行平均。但是对哪些向量求平均呢？所有？这似乎也不是很确定。

我也想过尝试训练这个向量。但是，如果我想在训练期间卡住其余的嵌入，这并不是很方便。

(通用的解决方案值得赞赏，但我想补充一点，我正在使用 PyTorch - 以防万一 PyTorch 已经为这个问题提供了一个方便的解决方案。)

那么创建这样一个向量的一个好的和简单的策略是什么？

最佳答案

有多种方法可以处理。我不认为我可以引用关于哪个效果更好的引用。

不可训练选项 :

随机向量作为嵌入

您可以对 OOV 使用全零向量。

您可以表示所有嵌入向量，这样您就可以避免偏离实际分布的风险。

此外，嵌入通常带有在训练期间学习的“unk”向量，您可以使用它。

可训练选项 :

您可以为 OOV 声明一个单独的嵌入向量，并使其可训练并保持其他嵌入固定。您可能必须为此重写嵌入查找的前向方法。您可以声明一个新的可训练 Variable并在前向传递中使用此向量作为 OOV 的嵌入，而不是进行查找。

解决 OP 的评论:

我不确定这三种不可训练的方法中的哪一种可能效果更好，我不确定是否有一些关于此的工作。但是方法 4) 应该工作得更好。

对于可训练选项，您可以创建一个新的嵌入层，如下所示。

class Embeddings_new(torch.nn.Module): 
    def __init__(self, dim, vocab): 
        super().__init__() 
        self.embedding = torch.nn.Embedding(vocab, dim) 
        self.embedding.weight.requires_grad = False
        # vector for oov 
        self.oov = torch.nn.Parameter(data=torch.rand(1,dim)) 
        self.oov_index = -1 
        self.dim = dim 

    def forward(self, arr): 
        N = arr.shape[0] 
        mask =  (arr==self.oov_index).long() 
        mask_ = mask.unsqueeze(dim=1).float() 
        embed =(1-mask_)*self.embedding((1-mask)*arr) + mask_*(self.oov.expand((N,self.dim))) 
        return embed

用法:

model = Embeddings_new(10,20000)    
out = model.forward(torch.tensor([-1,-1, 100, 1, 0]))
# dummy loss
loss = torch.sum(a**2)
loss.backward()

关于neural-network - 使用预训练的词嵌入 - 如何为未知/OOV token 创建向量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53316174/

24

4

0

文章推荐： apache-spark - 将展开内存传输到存储内存失败

文章推荐： clang - RISC-V 中的 LLVM 指令调度

文章推荐： Laravel Nova - 指向资源页面的新星路径

文章推荐： variables - 如何在 Ansible 的 var 文件中引用列表中的变量？

networking - 在Elasticsearch集群中 “IN THE SAME NETWORK”是什么意思？
我正在使用AWS中的VM设置Elasticsearch集群。我知道每个节点都会自动尝试加入一个在同一网络中具有相同群集名称的现有群集。但是，我无法理解“同一网络” 是什么。为了了解同一网络，我发
javascript - Web3/元掩码 : Error: Contract has not been deployed to detected network (network/artifact mismatch) on Kovan network
我尝试部署一个已经存在于 Kovan 网络上的合约实例，以通过 web3 和 metamask 与其交互。首先，我将 metamask 设置为我的当前提供者，然后我部署了一个合约实例，如下所示:
docker - 创建默认 "bridge"网络 : cannot create network (docker0): conflicts with network (docker0): networks have same bridge name 时出错
停止 docker 后，它拒绝重新启动。它提示另一个名为 docker0 的网桥已经存在: level=warning msg="devmapper: Base device already exis
networking - 获取与 docker Network 关联的网桥名称
我正在使用“docker network create --d bridge mynet”创建一个 docker 网络。我想获取与此 docker 网络关联的网桥名称。我知道我可以使用“-o”来提供
networking - 如何使用Powershell配置Juniper Networks SA VPN连接设置
我的一位同事的VPN连接有问题。似乎他的操作系统重设了代理设置，并且他需要手动将其更改回。有没有办法使用Powershell设置VPN和代理？他正在使用Windows 7，因此可以使用Powersh
azure - 如何从Azure指标获取 "Network In"和 "Network Out"？
我在 Azure VM 中有一个虚拟机，我想获取网络输入/网络输出指标。在 Azure 门户中，我将诊断设置和指标设置为存储到选定的存储表中。但存储的指标与我在 Azure 门户中看到的指标之间存在
networking - docker network 连接到主机的第二个接口(interface)
我有一个用例，我的 Docker 容器的第二个接口(interface)需要共享主机的第二个网络接口(interface)的接口(interface)。这可能使用 docker network con
azure - 如何从Azure指标获取 "Network In"和 "Network Out"？
我在 Azure VM 中有一个虚拟机，我想获取网络输入/网络输出指标。在 Azure 门户中，我将诊断设置和指标设置为存储到选定的存储表中。但存储的指标与我在 Azure 门户中看到的指标之间存在
networking - docker : How to find the network my container is in?
我想了解一些关于 Docker 的事情: 如何找到我的容器所在的网络？我可以动态分离我的容器并附加到其他网络吗？怎么样？如果我有两个容器正在运行，如何检查这两个容器是否在同一个网络？我可以 pin
Error: googleMobileAds/error-code-network-error The ad request was unsuccessful due to network connectivity(错误：googleMobileAds/Error-Code-Network-Error由于网络连接，广告请求未成功)
我已经开发了一款使用Reaction Native和世博会的应用程序，并想在它的末尾添加一个横幅广告。当我在Android模拟器上的开发版本上运行应用程序时，应用程序的其余部分在没有应用程序的情况下运
networking - 连接 "Network is Unreachable"VPS Centos
我已经编辑了 eth0，但我犯了一个错误，我的 VPS 现在处于脱机状态，甚至无法连接到 ssh，并在故障恢复控制台显示以下消息: “网络不可达”。配置/编辑网络的命令是什么!？ Photo 最佳答
networking - GCE 实例无法访问 - 连接 : Network is unreachable
今天早上我启动了我的 GCE 实例，并且 4/6 完全无法访问。所有这些都在同一个 us-east1-d 区域中。 SSH 连接也无法正常工作，因此我使用串行控制台连接到有问题的实例之一。当我尝试
networking - VirtualBox 虚拟机中的 “connect: Network is unreachable”
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
networking - 如何将 Network.Browser.browse 的日志静音到标准输出？
我正在使用 Network.Browser 4000.0.9 检索网页: import Network.Browser import Network.HTTP main = do (uri
networking - docker 连接(101 : Network is unreachable)
我正在尝试更新我在 docker 容器中的 apt 存储库，但我做不到。 docker run -it --dns 8.8.8.8 --dns 8.8.4.4 debian apt-get 更新 ..
networking - 超 V : Network Adapter Drivers
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
javascript - axios能否区分 "no network"和 "network disconnected"
Axios 是否可以区分以下内容: 由于客户端没有网络连接而失败的请求发出请求的时间 - (ERR_CONNECTION_REFUSED)。由于网络连接丢失而失败的请求之后已发出请求，但在收到响应之
networking - 在新的 Unity Networking 中，RPC 相当于什么？
Unity 已升级其网络系统，并将旧网络称为遗留网络。那么我们如何将 RPC 调用更改为新的 Unity Networking？这种方法的等价物是什么？我们应该为它编写自己的方法吗？ (发送字节数组
neural-network - Vowpal 兔 : Input of neural network?
在机器学习工具 vowpal wabbit ( https://github.com/JohnLangford/vowpal_wabbit/ ) 中，通常训练线性估计器 y*=wx。但是，可以添加前向
networking - 为 IPv6 找到正确的 "network interface"号码
我正在尝试将 Boost 用于某些 IPv6 和多播网络通信。我需要构建一个使用特定网络接口(interface)索引的 IPv6 多播套接字。我能够在 boost/asio/ip/detail/s

首页

博学

6Ren·AI

商城

neural-network - 使用预训练的词嵌入 - 如何为未知/OOV token 创建向量？