神经网络|对CTC、RNA、RNN-T的理解神经网络|机器学习

首先，二者都是解决时序类问题的
CTC(一种损失函数)：传统对于传统语音识别声学模型的训练，每一帧所对应的标签都必须要确定，只有这样才可以对模型进行训练，所以传统方法在训练模型之前必须对数据进行预处理，也就是做语音对齐。但是为了确保对齐更准确，语音对齐的过程需要进行多次反复的迭代，这是一个非常耗费时间耗费人力的工作。
【神经网络|对CTC、RNA、RNN-T的理解】而CTC的方法是关注一个输入序列到一个输出序列的结果，所以它只会考虑预测输出的序列是否和真实的序列接近或相同，而不会考虑预测输出序列中的各个结果在时间点上是否和输入的序列正好对齐。
CTC非常适合应用在语音识别，它可以让RNN直接对序列数据进行学习，而无需事先标注好训练数据中输入序列和输出序列的映射关系，打破了RNN应用于语音识别、手写字识别等领域的数据依赖约束，使得RNN模型在序列学习任务中取得更好的应用效果。
例如一段音频会自动生成文字。比如说输入一段音频(你好我是学生)，通过CTC后会输出生成文字的分布(即概率分布)。此时，我们可以看出概率最大的结果(假如输出为“ni hao wo shi xue sheng”的概率最大)，也可以看出有55%的概率输出“ni gao wo si xie seng”。
CTC有自己的损失函数的定义：给定样本后输出正确label的概率的乘积(即，CTC模型会有好几个output，这些概率相乘后取对数)，后续可以用梯度下降，Adam求解了。
所以啊，CTC只是一个神经网络后续的一个loss。也就是说例如RNN进行训练的时候，最后到达CTC这个loss,而CTC有它自己的特性，这个特性就是：正常的loss是预测和 label 之间的关系，而CTC的loss是给出一堆预测及预测与label对应正确概率的关系。因此，经过公式算出loss后再进行Adam优化啊等等。
????????????????????
文章图片

RNA
文章图片

RNN-T
文章图片

(2条消息) Chapter1-3_Speech_Recognition(CTC, RNN-T and more)_zjuPeco的博客-CSDN博客

神经网络|对CTC、RNA、RNN-T的理解

推荐阅读

汽车积碳是什么意思

redis多节点同步

27岁有稳定工作,想用20万存款当做第二职业来投资,投资什么好呢？

上海戏剧学院分数线 2019年上海戏剧学院分数线

去加拿大必买清单去加拿大买什么最划算

室内阳台养什么花最好室内阳台适合养什么花好

火理财什么时间可以申请债权转让？债权转让收费吗

塑料菜板发黑怎么办

癌细胞|癌细胞已经转移，为什么人的精神依旧很好，而且很能吃？是好事？

详细步骤及注意事项 g2810加墨水后如何操作

佳能相机7100 佳能7100单反

有什么好看的书推荐？

你喜欢看军事小说吗？

空气阻尼器时间继电器空气阻尼器结构图

2023春节坐高铁需要全程戴口罩吗 2021春节能坐高铁吗

台高官被问“你有接受过性招待吗

农村籍独生子女补贴如何领取？四类人无法领取有你吗？

甲氰菊酯有效是多久甲氰菊酯药效是几天，水里多久失效

c语言连接数据库函数 c语言数据库连接池

有宠app怎么关闭资讯推送通知？有宠app关闭资讯推送通知的方法