python - 由于 tf.keras.preprocessing.text.Tokenizer.texts_to_sequences 上的 np.hstack 导致尺寸(形状)发生变化-6ren

python - 由于 tf.keras.preprocessing.text.Tokenizer.texts_to_sequences 上的 np.hstack 导致尺寸(形状)发生变化

转载作者：行者123 更新时间：2023-12-01 06:24:21

24

4

我已申请 np.hstack 上 tensorflow.keras.preprocessing.text.Tokenizer.texts_to_sequences 对于培训标签和验证(测试)标签。

令人惊讶且神秘的是，在我应用训练标签之后，输出的大小与应用之前不同 np.hstack 。但是，在应用 tensorflow.keras.preprocessing.text.Tokenizer.texts_to_sequences 之前和之后，验证标签的形状没有变化。 和 np.hstack 。

这是 Google Colab 的链接，轻松重现错误。

下面给出了重现错误的完整代码(以防万一链接不起作用):

!pip install tensorflow==2.1

# For Preprocessing the Text => To Tokenize the Text
from tensorflow.keras.preprocessing.text import Tokenizer
# If the Two Articles are of different length, pad_sequences will make the length equal
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Package for performing Numerical Operations
import numpy as np

Unique_Labels_List = ['India', 'USA', 'Australia', 'Germany', 'Bhutan', 'Nepal', 'New Zealand', 'Israel', 'Canada', 'France', 'Ireland', 'Poland', 'Egypt', 'Greece', 'China', 'Spain', 'Mexico']


Train_Labels = Unique_Labels_List[0:14]
#print('Train Labels = {}'.format(Train_Labels))

Val_Labels =  Unique_Labels_List[14:]
#print('Val_Labels = {}'.format(Val_Labels))

No_Of_Train_Items = [248, 200, 200, 218, 248, 248, 249, 247, 220, 200, 200, 211, 224, 209]
No_Val_Items = [212, 200, 219]

T_L = []
for Each_Label, Item in zip(Train_Labels, No_Of_Train_Items):
    T_L.append([Each_Label] * Item)

T_L = [item for sublist in T_L for item in sublist]

V_L = []
for Each_Label, Item in zip(Val_Labels, No_Val_Items):
    V_L.append([Each_Label] * Item)

V_L = [item for sublist in V_L for item in sublist]


len(T_L)

len(V_L)

label_tokenizer = Tokenizer()

label_tokenizer.fit_on_texts(Unique_Labels_List)

# Since it should be a Numpy Array, we should Convert the Sequences to Numpy Array, for both Training and 
# Test Labels

training_label_list = label_tokenizer.texts_to_sequences(T_L)

validation_label_list = label_tokenizer.texts_to_sequences(V_L)

training_label_seq = np.hstack(training_label_list)

validation_label_seq = np.hstack(validation_label_list)

print('Actual Number of Train Labels before np.hstack are {}'.format(len(training_label_list)))
print('Change in the Number of Train Labels because of np.hstack are {}'.format(len(training_label_seq)))

print('-------------------------------------------------------------------------------------------------------')

print('Actual Number of Validation Labels before np.hstack are {}'.format(len(validation_label_list)))
print('However, there is no change in the Number of Validation Labels because of np.hstack {}'.format(len(validation_label_seq)))

提前谢谢您。

最佳答案

这是因为 training_label_list 中有包含多个值的列表。您可以通过 sorted(training_label_list, key=lambda x: len(x),verse = True) 进行验证。

发生这种情况是因为 label_tokenizer 按以下方式考虑新西兰。

>>>label_tokenizer.index_word
{1: 'india',
 2: 'usa',
 3: 'australia',
 4: 'germany',
 5: 'bhutan',
 6: 'nepal',
 7: 'new',
 8: 'zealand',
 9: 'israel',
 10: 'canada',
 11: 'france',
 12: 'ireland',
 13: 'poland',
 14: 'egypt',
 15: 'greece',
 16: 'china',
 17: 'spain',
 18: 'mexico'}

检查索引 7 和 8。

关于python - 由于 tf.keras.preprocessing.text.Tokenizer.texts_to_sequences 上的 np.hstack 导致尺寸(形状)发生变化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60237754/

24

4

0

文章推荐： python - UpdateOrCreate 建立一对多关系

文章推荐： java - 为什么我的方法会在中间返回？

文章推荐： java - 深入了解队列

具有相同高度的 SwiftUI HStack
我想要 Text("111")具有与 VStack 相同的高度包含 2222... 和 333.... struct Test7: View { var body: some View { H
具有不均匀大小元素的 SwiftUI HStack
Desired output 寻找一种在不均匀元素中拆分 HStack 的方法，一个占据屏幕的 1/2，另外两个占据屏幕的 1/4(见附件)。代码: struct MyCategoryRow:
swift - 具有环绕和动态高度的SwiftUI HStack
我有这个 View 来显示从SwiftUI HStack with Wrap获得的多行文本标签，但是当我将其添加到VStack中时，这些标签会与下面放置的任何其他 View 重叠。标签显示正确，但是
ios - HStack 中的两个按钮相互执行操作
我创建了一个带有水平堆栈 View (标签、按钮、按钮)的简单列表。每个按钮都有自己的按钮操作，但是当我运行时，我可以看到点击一个按钮会打印两个操作。断点也出现在这两个 Action 中。她是我的代码
ios - 无法设置其中包含可调整大小的图像的 HStack
我一直在尝试制作具有 HStack 的 View 与 Image在其中，Image设置为可通过 aspectRatio 调整大小的 .fill .不知何故，它破坏了所有框架并在布局中引入了空间例如，
ios - HStack 中的两个按钮相互采取行动
我创建了一个带有水平堆栈 View (标签、按钮、按钮)的简单列表。每个按钮都有自己的按钮操作，但是当我运行时，我可以看到点击一个按钮会打印两个操作。断点也出现在两个 Action 中。她是我的密码
python - Hstacking 功能以某种方式导致预测速度额外放缓
当我使用 CountVectorizer 等生成的一些稀疏矩阵的 scipy.sparse.hstack 时，我想合并它们以用于回归，但不知何故它们速度较慢: X1 有 10000 个来自 analy
swiftui - 有没有办法有条件地翻转 HStack 内容的顺序？
我正在使用 HStack 在我的 View 层次结构中布置一些元素。我希望能够有条件地翻转元素的顺序。 HStack { Text("Hello") Text("World") } 我的想法是
ffmpeg hstack png 并用白色替换透明颜色
下面的命令可以很好地堆叠两个具有左右 alpha channel 的 png 文件，输出 png 文件也将保留 alpha channel 。 ffmpeg -i a.png -i b.png -fi
c# - FFMPeg hstack 视频高度不同
我目前正在尝试水平堆叠多个视频文件并收到此错误 [libvorbis @ 000001bb38f23a80] Queue input is backward in timerate=N/A speed
SwiftUI 使按钮在 HStack 中水平地彼此靠近
我试图让键盘上的按钮在水平方向上彼此靠得更近。首先我尝试调整按钮框架的宽度。但是我发现，如果我减小框架宽度，一些像“W”这样的长宽字符将无法正确显示。然后我尝试将 HStack 的间距设置为负数，就
FFmpeg 无法识别 hstack 命令中的正确输入高度
hstack FFmpeg 命令的问题困扰着我。 input1 和 input2 都是垂直 360x640 视频。我将 input1 裁剪成一个正方形，将其与 input2 垂直合并，然后在生成的视频
ios - SwiftUI HStack 以等间距填充整个宽度
我有一个 HStack: struct BottomList: View { var body: some View { HStack() { ForE
python - np.hstack() 中的内存错误
我正在尝试执行此代码: for i in Fil: for k in DatArr: a = np.zeros(0) for j in Bui:
python - Numpy.hstack() 将行尾标记添加到结果数组中
我对 numpy.hstack() 函数有问题。我有三个相同的 numpy 数组，我想使用 hstack() 将它们连接起来，所以我从这些 numpy 数组创建元组并使用 numpy.hstack(t
python - 稀疏矩阵上 hstack 的类型错误
我有两个 csr 稀疏矩阵。一个包含来自 sklearn.feature_extraction.text.TfidfVectorizer 的转换，另一个包含从 numpy 数组转换而来的转换。我试图对
python - Numpy hstack 爆内存
这个问题在这里已经有了答案: How to extend an array in-place in Numpy? (4 个答案) 关闭 8 年前。我是 Python 的新手，不确定为什么当我使用
python - 使用 hstack 时矩阵格式错误？
我有以下矩阵: >>> X1 shape: (2399, 39999) type: scipy.sparse.csr.csr_matrix 和 >> X2 shape: (2399, 333534)
python - 将 hstack 应用于矩阵数组
给定一个矩阵数组 matrices_w 我想在每个矩阵上应用 np.hstack 函数: matrices_w = np.asarray([[[1,2,3],[4,5,6]],[[9,8,7],[6,
Python, hstack 不同类型的列numpy数组(列向量)
我目前有一个 numpy 多维数组(float 类型)和一个 numpy 列数组(int 类型)。我想将两者组合成一个多维 numpy 数组。 import numpy >> dates.shape

首页

博学

6Ren·AI

商城

python - 由于 tf.keras.preprocessing.text.Tokenizer.texts_to_sequences 上的 np.hstack 导致尺寸(形状)发生变化