python - 图像字幕给出较弱的结果-6ren

python - 图像字幕给出较弱的结果

转载作者：太空宇宙更新时间：2023-11-03 10:55:03

25

4

我正在尝试构建图像字幕模型。

modelV = createVGG16()
modelV.trainable = False
# DISCARD LAST 2 LAYERS
modelV.layers.pop()
modelV.layers.pop()

print 'LOADED VISION MODULE'

modelL = Sequential()
# CONVERTING THE INPUT PARTIAL CAPTION INDEX VECTOR TO DENSE VECTOR REPRESENTATION
modelL.add(Embedding(self.vocab_size, 256, input_length=self.max_cap_len))
modelL.add(LSTM(128,return_sequences=True))
modelL.add(TimeDistributed(Dense(128)))

print 'LOADED LANGUAGE MODULE'

# REPEATING IMAGE VECTOR TO TURN INTO A SEQUENCE
modelV.add(RepeatVector(self.max_cap_len))

print 'LOADED REPEAT MODULE'

model = Sequential()
model.add(Merge([modelV, modelL], mode='concat', concat_axis=-1))
# ENCODING THE VECTOR SEQ INTO A SINGLE VECTOR
# WHICH WILL BE USED TO COMPUTE THE PROB DISTRIB OF THE NEXT WORD
# IN THE CAPTION
model.add(LSTM(256,return_sequences=False))
model.add(Dense(self.vocab_size))
model.add(Activation('softmax'))

if(ret_model==True):
    return model

model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])

print 'COMBINED MODULES'
# OUTPUT WILL BE OF SHAPE (samples, max_caption_len, 128)
return model

我已经尝试在 FLickr8k 测试数据集的前 100 张图像的所有 5 个字幕上运行这个模型 50 个时期。所有字幕都以开头并与连接。为了生成标题，我将输入图像作为初始词。在每次迭代中，我都会预测词汇表的概率分布并获得下一个单词。在下一次迭代中，我将 PredictedWord 作为输入并再次生成概率分布。

发生的事情是我在每个时间步得到相同的概率分布。

我的问题是:

我的模型是否太小而无法生成字幕？
训练数据是否太小？
epoch 的数量是否太少？
我的整个方法是错误的吗？

最佳答案

在回答您的问题之前，我想问一下，您在下面的语句中所说的迭代是什么意思？

What happens is that I get the same probability distribution in every iteration.

给定一个图像和初始单词，您应该得到下一个单词，该单词应该作为输入给出以生成下一个单词，这个过程应该继续下去，直到您得到一个代表结束的特殊标记(例如，EOC)的标题。

Is my model too small to generate captions?

我会说不，但可能这个模型很小，无法生成好的字幕。

Is the training data too small?

是的，只有 100 张图像不足以训练图像描述生成神经网络。

Is the number of epochs too small?

不，50 个 epoch 并不算小。您或许可以尝试调整其他参数，例如学习率!

Is my entire approach wrong?

不，你的做法没有错。您可以增强您的方法来为图像生成好的说明文字。你应该在网上找到好的例子，通过它们，我相信你会从中得到灵感。

关于python - 图像字幕给出较弱的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42494517/

25

4

0

文章推荐： python - 使用 python 套接字发送/接收数据

文章推荐： java - 将 XMPP 协议(protocol)合并到 Android 应用程序中

文章推荐： python - AWS 将 MQTT 消息存储到 DynamoDB

qt - QLabel中的文本滚动(字幕)
我正在学习WidgetMarqueeLabel课: #include "WidgetMarqueeLabel.h" #include #include WidgetMarqueeLabel::Wi
Graphviz (DOT) 字幕
我需要使用 Graphviz DOT 打印大量图表。为了区分每个图对应的输入，我还希望每个图都有一个标题。有没有办法将它嵌入到图形的 DOT 表示中。最佳答案您可以使用 label为图表添加标题。
悬停上的 Jquery 字幕
我用 jQuery 编写了一个简单的脚本，允许根据 .hover 触发器弹出和弹出标题。问题是您必须将鼠标悬停在图像上，移回图像上，然后再次将鼠标悬停在图像上才能正常工作。 (你可以在这里明白我的意
android - Chromecast 字幕
我已经成功地将视频转换到 chromecast 现在我正在尝试添加对字幕的支持，这里我面临两个问题当我使用 NanoHttpd 流式传输 vtt 文件时，chromecast 返回错误代码 2100
HTML 字幕 - 静态文本
我想知道 HTML 选框是否允许在控件(或容器)的开头使用静态文本，以便当文本向左滑动时它会滑动传递文本？例如。我正在查看要静态对齐到左侧的日期，数据库中的文本将滑过它，然后从右侧重新出现。 HT
Android - ExoPlayer2 字幕
如何在ExoPlayer2上设置字幕？我试过这个 tu bild MergingMediaSource: SingleSampleMediaSource singleSampleSource
ffmpeg - 编码前预览 FFMPEG 字幕
我正在使用 FFMPEG 使用如下命令刻录字幕: ffmpeg -i video.mp4 -vf "subtitles=subs.srt:force_style='Fontsize=24,Primar
video - 编码后如何在输出文件中保留 DVB 字幕？
我有一个输入文件，它基本上是一个 .ts 文件，其中包含 4 个 dvb 字幕流(嵌入其中)。我正在使用以下命令在输出视频中保留 dvb 字幕。 ffmpeg -i Input.ts -c:a cop
youtube - 是否可以搜索 YouTube 字幕？
假设我想查找副标题中包含“法国总统选举”一词的视频列表。我可以使用 YouTube API 做到这一点吗？如果它甚至可以在人工生成和自动生成的字幕中搜索，那将是完美的。但是如果它可以搜索两种类型的
youtube - 禁用嵌入视频上的 YouTube 字幕
我正在尝试将 YouTube 视频嵌入 YouTube iframe。视频有一个 yt:cc=on 标签，这意味着默认情况下会加载字幕。 (即使用户不想要，属性 cc_load_policy=1 也
r - 如何添加不同大小和颜色的 ggplot2 字幕？
我正在使用 ggplot2 来改进降水条形图。这是我想要实现的可重现示例: library(ggplot2) library(gridExtra) secu <- seq(1, 16, by=2)
javascript - VTT(字幕)不适用于外部网址
我正在尝试从外部 url 播放电影的字幕，但它不起作用，当我尝试添加本地存储的 vtt 文件时，它就起作用了。下面是代码上面的代码不起作用。但是当我复制 vtt 的内容时它起作用了。请
ios - 加载时未出现 UITableViewCell 字幕
我有一个包含单元格的表格，其中只有在搜索了某些内容后才会出现副标题。这是 cellForRowAtIndexPath 的代码: - (UITableViewCell *)tableView:(UITa
php - WP 字幕 - 格式
不确定这是不是该问的地方，但我在其他地方运气不好，之前经常通过查看其他人在本网站上的问题和答案来设法找到问题的答案。我最近安装了一个 WordPress 插件 (WP Subtitle)，它允许我为
android - actionBarSherlock 字幕 textSize
我正在使用 ActionBarSherlock 字幕并尝试使用样式更改字幕文本大小，但似乎不起作用。我对主题不太熟悉，所以..我该如何更改？？提前致谢最佳答案 @style/Widget
android - 字幕 TextView 动画
跑马灯动画不行，这是我做的。它适用于第一个 TextView ，但不适用于第二个。我究竟做错了什么？最佳答案这对我
javascript - 获取 YouTube 字幕
如何以编程方式获取正在播放的 YouTube 视频的字幕？最初我尝试通过 YouTube API 离线进行, 但是 as it seems YouTube 禁止获取您不是所有者的视频的字幕。现在我
ios - 如何从 AVPlayer 中提取隐藏式字幕/字幕
由于 AVPlayer 渲染的隐藏式字幕有时会与其他 UI 组件重叠，我想在单独的 View 中渲染 cc。我可以通过将 closedCaptionDisplayEnabled 设置为 NO 来关闭
youtube-api - 某些网站如何下载 YouTube 字幕？
这有点与 Does YouTube API forbid to download video captions if you are not it's owner? 重复的问题, Get YouTub
javascript - 默认接收器上的 Chromecast WebVTT 字幕
因此，我尝试使用默认的 chrome 发送器应用程序为 chromecast 设置隐藏式字幕，根据文档，这应该是可能的，as seen here 。我不明白为什么我的代码不起作用。它与提供的示例代码几

首页

博学

6Ren·AI

商城

python - 图像字幕给出较弱的结果