当前位置：首页|资讯|人工智能|深度学习

从零实现深度学习框架系列开更！RNN从理论到实战（理论篇）

作者：深度之眼官方账号发布时间：2023-03-17

人工智能深度学习

来源：投稿作者：175
编辑：学姐

本系列非常适合刚入门深度学习的AI小白，已经学有所得的同学也可以温故知新！

要深入理解深度学习，从零开始创建的经验非常重要，从自己可以理解的角度出发，尽量不使用外部完备的框架前提下，实现我们想要的模型。本系列文章的宗旨就是通过这样的过程，让大家切实掌握深度学习底层实现，而不是仅做一个调包侠。

本文介绍RNN，一种用于处理序列数据的神经网络。

循环神经网络

循环神经网络(Recurrent Neural Network,RNN)是包含循环连接的网络，即有些单元是直接或间接地依赖于它之前的。

本文我们学习一种叫做Elman网络的循环网络，或称为简单循环网络(本文中的RNN都代表该网络)。隐藏层包含一个循环连接作为其输入。即，基于当前输入和前一时刻隐藏状态计算当前隐藏状态。

前一时刻的隐藏层提供了一种记忆(或上下文)的功能，可以提供之前的信息为未来做决定提供帮助。重要的是，这种方法理论上不需要对前文的长度进行限制，不过实际上过远的信息很难有效的保留。

前向传播

RNN中的前向传播(推理)过程和前馈网络差不多。但在使用RNN处理一个序列输入时，需要将RNN按输入时刻展开，然后将序列中的每个输入依次对应到网络不同时刻的输入上，并将当前时刻网络隐藏层的输出也作为下一时刻的输入。

循环网络处理序列输入的示意图，图片来自https://medium.com/deeplearningbrasilia/deep-learning-recurrent-neural-networks-f9482a24d010

学习

RNN的沿着时间反向传播,图片来自https://mmuratarat.github.io/2019-02-07/bptt-of-rnn

Elman网络：

Jordan网络：

RNN作为语言模型

这种改进，除了提升了模型困惑度之外，还显著减少了模型所需的参数量。

我们已经学习了RNN的基础知识，在实际应用上通常不是仅使用我们学到的这种RNN。而是会使用堆叠RNN和双向RNN。下面分别来了解它们。

堆叠NN

我们到此为止所学的例子中，RNN的输入都是由单词嵌入向量组成，而输出是预测单词有用的向量。但是，我们也可以使用一个RNN的整个输出作为另一个RNN的输入，通过这种方向将多个RNN网络堆叠起来。

如上图所示，我们堆叠了三个RNN。

堆叠的RNN通常优于单层RNN。可能的一个原因是，网络在不同层抽象了不同的表示。堆叠RNN的初始层产生的表示可以作为深层有用的抽象——这很难在单词RNN中产生。但是，随着堆叠层数的增加，训练成本也迅速上升。

双向RNN

另一种应用较多的是双向RNN，我们上面学到的是从左到右依次处理序列中的每个元素。但在很多情况下，如果能访问整个序列再做决定，得到的效果会更好。此时就需要双向RNN。

一种实现方式时通过两个独立的RNN网络，一个按照之前的顺序从左往右读；另一个按照逆序从右往左读。在每个时刻t tt，拼接它们生成的表示。

References

Speech and Language Processing

最近发现想要入门AI的同学多了起来！那本系列一定要认真看啦！

下期会继续更新！记得收藏哦~

也可以关注【学姐带你玩AI】公众号

学习更多AI干货，还有学姐整理的论文n篇免费领取！

回复“500”300+论文PDF＆讲解视频速领！

推荐体验

相关资讯

深度学习：从理论到应用的全面解析

引言深度学习作为人工智能（AI）的核心技术之一，在过去的十年中取得了显著的进展，并在许多领域中展示了其强大的应用潜力。本文将从理论基础出发，探讨深度学习的最新进展及其在各领域的应用，旨在为读者提供全面的理解和启示。一、神经网络的基本概念神经网络是一种受人脑神经元结构启发而设计的计算模型，具有处理复杂模式识别和学习任务的能力。通过多层次的连接和非线性变换，神经网络能够从数据中学习并提取特征，逐步提高对输入的预测和分类能力。1、感知器与多层感知器（MLP）感知器：感知器是最基本的神经网络单元，类似于

深度学习人工智能

天津汇柏科技有限公司 2024-06-17

细说机器学习从理论到实践

链接：https://pan.baidu.com/s/1O4S9bHcAggHCqG2LFcvIFg?pwd=59aw 提取码：59aw本书从数学知识入手，详尽细致地阐述机器学习各方面的理论知识、常用算法与流行框架，并以大量代码示例进行实践。本书内容分为三篇：第一篇为基础知识，包括机器学习概述、开发环境和常用模块、特征工程、模型评估、降维方法等内容。本篇详细而友好地介绍机器学习的核心概念与原理，并结合大量示例帮助读者轻松入门。第二篇为算法应用，涵盖机器学习最重要与高频使用的模型，包括K-Means聚类、K

机器学习百度编程

刘姥姥看人间 2023-07-31

基于深度学习的音乐情感分析：从理论到实践

引言音乐作为一种情感表达的媒介，能够引起人们的共鸣和情感反应。随着深度学习技术的发展，音乐情感分析成为了一个热门的研究领域。本文将详细介绍基于深度学习的音乐情感分析方法，并通过代码示例展示如何实现这一过程。音乐情感分析的背景音乐情感分析（Music Emotion Recognition, MER）旨在通过计算机算法自动识别音乐作品所传达的情感。传统的音乐情感分析方法依赖于手工提取的特征和传统机器学习算法，而深度学习方法则能够自动从数据中学习特征，提高了情感识别的准确性。深度学习在音乐情感分析中的应用深度

深度学习机器学习编程

Echo_Wish 2024-09-27

机器学习-学习率：从理论到实战，探索学习率的调整策略

> 本文全面深入地探讨了机器学习和深度学习中的学习率概念，以及其在模型训练和优化中的关键作用。文章从学习率的基础理论出发，详细介绍了多种高级调整策略，并通过Python和PyTorch代码示例提供了

机器学习深度学习编程

techlead_krischang 2023-12-05

AI大模型：从理论到实践的飞跃

在人工智能领域，大模型的发展是一个重要的里程碑。它从理论到实践的飞跃，为我们带来了前所未有的可能性。本文将从理论和实践两个方面，探讨大模型的发展及其在各个领域的应用。一、理论基础 1.深度学习：深度学习是大模型的基础，它通过多层神经网络对数据进行学习和抽象。深度学习模型的训练需要大量的数据和计算资源，而大模型的出现使得这些需求得到了满足。 2.预训练模型：预训练模型是指在大量无标签数据上进行预训练，然后在特定任务上进行微调的模型。预训练模型可以有效地利用无标签数据中的信息，提高模型的泛化能力。 [图片]

AI大模型人工智能深度学习

广州硅基科技 2024-04-03

近期资讯

IIHS研究：车速叠加车辆高度，加大行人碰撞风险

车头更高的车辆，车速增加产生的伤害影响会更显著

车市睿见 2024-12-27

董宇辉有钱了，自掏腰包办跨年晚会

当了老板出手就是大方。

圈内新知 2024-12-27

跟着赛事去旅行，哪座城市2024最“吸客”？

京沪蓉尔滨引领2024体育文旅热潮，赛事经济刺激消费增长。

体坛经济观察 2024-12-27

欧洲经济为什么掉队了？

欧美经济差距越来越大的最主要原因是欧洲对新技术和研发的投资不足，这导致了欧洲生产率与美国渐行渐远

《财经》新媒体 2024-12-27

2024年千元机豹变：五大趋势已明，彻底告别“电子垃圾”

从量变到质变。

雷科技 2024-12-27

理想智驾，急下猛药

智驾开始成为用户买车的首要因素。

圆周智行 2024-12-27

美女争宠、霸总炫富、父子爱上女保洁，狂飙的短剧终于要刹车了

广电出手整顿，微短剧行业面临转折点

科技旋涡 2024-12-27

AI狙击，小语种遭遇“冰火两重天”？

导游吃香，专业被裁

橡树实验室 2024-12-27

孙正义“芯片帝国”计划曝光，向特朗普承诺投资1000亿美元

孙正义经历一系列失败投资后，提出高达1000亿美元的宏伟芯片计划。

智东西 2024-12-27

地产一哥人事变动：周东利辞任总经理

周东利离职保利发展，未来发展备受期待。

未来城不落 2024-12-27

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1