LSTM长短期记忆网络

2025-03-29

lecture

本周的社团讲座，整理了一下同步上传到博客喽~

一、背景知识

1. RNN的局限性

在讲解LSTM之前，我们需要了解为什么LSTM是有必要的。最初，循环神经网络（RNN）被提出用于处理时序数据或序列数据。RNN能够处理输入数据中的时序关系，通过使用隐藏状态（hidden state）来传递信息。然而，传统的RNN存在着一个重要问题：梯度消失和梯度爆炸 问题。

梯度消失：在反向传播过程中，RNN的梯度随着时间步的增加会逐渐变小，导致模型在训练过程中无法捕捉到长期依赖关系。
梯度爆炸：在反向传播时，梯度可能会急剧增大，导致训练不稳定。

这使得传统的RNN无法有效处理长时间序列数据。为了克服这个问题，LSTM应运而生。

2. 时间序列（Time Series）

时间序列是按时间顺序排列的一组数据点，它们通常反映了某一现象随时间的变化。每个数据点都代表一个特定时间点上的观测值，通常用于描述随时间变化的趋势、周期性和随机性。例如，股票价格、气温变化、销售额等都可以看作时间序列数据。

3. 时间步（Time Step）

时间步指的是时间序列中的每一个数据点所对应的时间间隔。在模型中，时间步表示模型在处理数据时的“一个单位时间”。例如，如果我们正在处理每日的气温数据，那么每一天就是一个时间步。如果是每小时的数据，那么每小时就是一个时间步。

简单来说：

时间序列：是按时间顺序排列的观测数据。
时间步：是时间序列中每一个数据点的时间间隔或单位。

二、LSTM的创新与设计理念

LSTM的设计目标是解决传统RNN的长期依赖问题，它的核心思想是引入一种 “记忆单元” （Cell State），让网络可以选择性地记住和忘记信息。LSTM的核心结构包括三个门：遗忘门、输入门和输出门。

1. 记忆单元（Cell State）：

在LSTM中，记忆单元（Cell State）可以被看作是一个 传送带 或 信息流，它负责在序列的各个时间步之间传递信息。你可以认为它是一个 “长时间记忆” 的存储池，它与其他部分的网络（如隐藏层）共同工作，以便将对序列数据的理解传递到下一个时间步。

2. 门控机制：

LSTM通过引入门控机制来控制信息流。门控机制能够对信息进行选择性地“忘记”和“更新”，从而使得网络能够灵活地学习长期依赖关系。

类比：学校的图书馆

你可以将记忆单元想象成一个学校的图书馆。学校的老师、学生、工作人员等需要向图书馆添加或删除书籍（信息），图书馆作为一个长期的存储库，负责保存这些书籍。

书籍：每本书代表一个信息或数据（例如，时间序列中的某个特定信息）。
老师/学生：他们负责决定哪些书籍（信息）应当被添加到图书馆，哪些应当被移除或更新。
图书馆：图书馆代表记忆单元，它存储了所有重要的信息，并根据需要提供这些信息。

在LSTM中，记忆单元就像图书馆一样，在每个时间步中，不同的门（遗忘门和输入门）决定哪些书籍（信息）应该被拿走（遗忘）或者加入新的书籍（更新）。

遗忘门：类似于图书馆的工作人员决定哪些不再需要的书籍要从图书馆中删除。
输入门：类似于老师或学生决定哪些新书应该被添加到图书馆中。
记忆单元的传递：像图书馆一样，存储的信息会不断传递到下一个时间步，直到被其他门进行更新。

三、LSTM的结构和计算流程

LSTM的计算流程非常精细和复杂，我们将从数据流的顺序开始，通过以下步骤来逐步理清。

1. 初始输入

假设我们正在处理一个时间序列数据（例如：某地的每日气温）。
假设当前时刻的输入是气温数据（$x_t$），而前一时刻的隐藏状态是 $h_{t-1}$。
- 隐藏状态（Hidden State）
  
  在RNN和LSTM等循环神经网络中，隐藏状态是网络中每个时间步的一个内部表示，它包含了从过去的时间步中传递过来的信息。
  - 定义：在每个时间步 $t$，隐藏状态 $h_t$ 是上一时刻隐藏状态 $h_{t-1}$ 和当前时刻输入 $x_t$ 共同决定的。它是网络“记忆”过去信息的一个重要部分。
  - 作用：隐藏状态保存了从历史输入中学习到的模式或特征，随着时间步的推进，隐藏状态不断更新，成为当前时刻和之前时刻信息的综合表示。
  - 隐藏状态 可以类比为一种“当前记忆”。它是网络的“内存”，储存着从过去到现在的学习和记忆。在每个时间步，网络会通过当前输入和前一时刻的隐藏状态来更新这个“内存”，以便更好地理解序列中的长期依赖关系。可以说，它是RNN和LSTM中非常重要的内部状态，表示网络对历史信息的记忆。前一时刻的状态 就是指上一时刻的隐藏状态，它在计算当前时刻的隐藏状态时起到传递和存储信息的作用。
记忆单元（Cell State） 在开始时，通常是初始化为零或其他初始值。它的作用是承载长期记忆。

2. 遗忘门（Forget Gate）：

遗忘门决定了记忆单元中的哪些信息应该被遗忘。它基于当前输入 $x_t$ 和前一时刻的隐藏状态 $h_{t-1}$ 来生成一个0到1之间的值。该值表示当前时刻记忆单元的“遗忘程度”。

遗忘门的输出是一个Sigmoid函数计算的结果：

\[f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)\]

其中，$W_f$ 是遗忘门的权重矩阵，$b_f$ 是偏置项，$\sigma$ 是Sigmoid函数。遗忘门的输出 $f_t$ 是一个介于0和1之间的值，表示遗忘的比例。

偏置项是神经网络中的一个重要参数，它能够帮助模型进行更精确的拟合和调整，尤其是在数据输入为零时，偏置项使得网络的输出可以不为零。通过偏置项的引入，神经网络能够更好地表达复杂的非线性关系。

显然，遗忘门的丢弃并不是随机的，而是 基于当前输入和前一时刻的隐藏状态，通过学习到的权重和偏置来决定的。遗忘门的输出是一个介于 0 和 1 之间的值，用来控制记忆单元的状态更新程度。具体来说：

如果遗忘门的输出接近 1，表示保留更多的前一时刻的记忆信息。
如果遗忘门的输出接近 0，表示丢弃更多的前一时刻的记忆信息。

通过训练，LSTM模型会学习在不同情况下保留或丢弃哪些信息，以便在时间序列中捕捉到有用的长期依赖。

3. 输入门（Input Gate）：

输入门控制当前时刻的新信息应该如何写入到记忆单元。输入门包括两个部分：

第一部分是通过Sigmoid函数计算当前输入和前一时刻隐藏状态的映射结果，得到一个0到1之间的值，表示要将多少新信息存储到记忆单元中。
\[i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)\]
第二部分是通过Tanh函数生成一个候选值 $~\tilde{C_t}$，它表示可以写入记忆单元的新信息。
\[\tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)\]

输入门的作用是决定哪些新信息可以添加到记忆单元中。你可以把他想象成是一个“编辑员”，它会决定哪些新信息需要写入记忆单元。

4. 更新记忆单元（Cell State Update）：

根据遗忘门和输入门的结果来更新记忆单元的状态。也就是说记忆单元的状态会受到两个因素的影响：

通过遗忘门，上一时刻的记忆单元状态 $C_{t-1}$ 会被遗忘一个比例。
通过输入门，当前时刻的新信息 $~\tilde{C_t}$ 会被写入记忆单元中。

更新后的记忆单元状态 $C_t$ 是由遗忘门和输入门的输出决定的：

\[C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}\]

其中，$f_t \cdot C_{t-1}$ 表示遗忘的部分，$i_t \cdot \tilde{C_t}$ 表示添加的新信息。

5. 输出门（Output Gate）：

输出门决定当前时刻的隐藏状态 $h_t$ 应该是什么。输出门根据当前时刻的输入 $x_t$ 和前一时刻的隐藏状态 $h_{t-1}$ 计算一个Sigmoid值，表示有多少记忆单元的信息会输出到下一层：

\[o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)\]

随后，记忆单元状态 $C_t$ 会经过Tanh函数进行非线性处理，得到它的“调制”版（一个介于 -1 和 1 之间的值），再与输出门的结果相乘，生成当前时刻的隐藏状态 $h_t$：

\[h_t = o_t \cdot \tanh(C_t)\]

隐藏状态 $h_t$ 会作为当前时刻的输出，并传递给下一个时间步的输入和隐藏状态。输出门就像是一个“发言人”，它决定了当前的记忆和信息流将如何传递给下一个阶段。

简单的例子

假设我们用LSTM来预测每天的气温，气温数据如下：

气温数据（时间序列）：30℃，32℃，28℃，33℃，35℃，…
我们希望LSTM能够记住过去几天的气温，并根据这些信息预测未来几天的气温。
1. 初始化
在第一天（30℃），LSTM的记忆单元 $C_0$ 和隐藏状态 $h_0$ 都初始化为0。输入是当天的气温（30℃）。

第一天的计算
- 遗忘门：遗忘门决定保留多少前一天的信息。由于这是第一天，前一天没有信息，所以遗忘门会决定“记忆清空”。
- 输入门：输入门决定将30℃（当天的气温）存入记忆单元。LSTM会将30℃添加到记忆中，作为当前时刻的状态。
- 更新记忆单元：记忆单元会结合遗忘门和输入门的输出，存储新的信息。由于没有遗忘的内容，记忆单元会直接存入30℃。
- 输出门：输出门根据当前记忆单元的状态生成隐藏状态 $h_1$，它作为下一时刻的输入，传递给下一天。
第二天的计算

第二天，气温是32℃，LSTM再次使用当前的输入（32℃）和前一时刻的隐藏状态 $h_1$ 来计算：
- 遗忘门：遗忘门决定保留多少第一天的信息。它根据历史气温决定要记住多少先前的数据。
- 输入门：输入门决定将32℃加入记忆单元，同时结合上一时刻的隐藏状态进行更新。
- 更新记忆单元：新的记忆单元会在保留前一时刻有用信息的基础上，加入今天的新气温32℃。
- 输出门：输出门基于更新后的记忆单元生成新的隐藏状态 $h_2$，并作为下一时刻的输入。
后续的时间步

对于后续的每一天，LSTM会重复以上步骤，逐步记住每一天的气温数据，同时更新记忆单元和隐藏状态：
- 对每一天的输入（气温数据），遗忘门和输入门会一起更新记忆单元，保留重要的信息，丢弃无关的内容。
- 输出门则根据最新的记忆单元生成当前时刻的隐藏状态，传递到下一个时间步。
最终输出

经过训练后，LSTM能够从所有历史的气温数据中学习规律，利用前几天的气温预测未来几天的气温。例如，基于前三天的气温，LSTM可以预测第4天、第5天的气温。

总结

LSTM通过四个主要部分来处理时间序列数据：

遗忘门：决定丢弃多少过去的信息。
输入门：决定将多少新信息写入记忆单元。
记忆单元：存储和传递信息。
输出门：决定当前时刻的输出（隐藏状态）。

通过这种方式，LSTM能够灵活地“记住”重要的信息，同时“忘记”不重要的内容，从而有效地处理长时间序列数据的依赖关系。

四、LSTM的优势与能力

长期依赖的捕捉能力： LSTM通过记忆单元和门控机制，能够有效处理长时间序列中的依赖关系。传统RNN由于梯度消失问题，难以学习长期依赖，而LSTM通过精心设计的门控机制，可以动态地调整信息的流动，从而实现对长期依赖的捕捉。
避免梯度消失与爆炸： LSTM的设计有效地缓解了梯度消失和梯度爆炸问题，使得网络能够在长时间序列数据上进行有效的训练。
灵活的记忆更新与遗忘机制： LSTM的遗忘门和输入门使得它能够决定哪些信息应该保留，哪些信息应该丢弃，这使得LSTM在处理复杂序列数据时具有很大的灵活性和表达能力。

五、LSTM的缺点与改进

计算复杂度高： LSTM的计算相对复杂，因为它需要多个门的计算，导致其训练速度较慢。为了提升速度，许多研究尝试使用更轻量化的变种，如GRU（Gated Recurrent Unit）。
参数较多： LSTM网络中的参数较多，尤其是在处理大规模数据时，训练时的内存和计算需求较高。

六、LSTM的实际应用

LSTM广泛应用于以下领域：

自然语言处理：例如，机器翻译、文本生成和情感分析。
时间序列预测：例如，股票预测、天气预测等。
语音识别：LSTM能够帮助处理语音数据的时序特性。
视频分析：LSTM用于视频帧的时序分析和目标跟踪。

LSTM作为一种解决RNN长期依赖问题的神经网络架构，凭借其独特的记忆单元和门控机制，在许多应用中表现出色。理解LSTM的工作原理有助于我们深入掌握如何处理时序数据，尤其是在自然语言处理、时间序列预测等领域。

七、LSTM的简单实操

我们将使用PyTorch来演示LSTM的实现。假设我们的任务是基于时间序列数据进行预测。

# 导入必要的库
import torch                # 导入PyTorch库，用于构建和训练神经网络
import torch.nn as nn       # 导入神经网络模块
import numpy as np          # 导入NumPy，用于数组操作
import pandas as pd         # 导入Pandas，用于数据处理
from sklearn.preprocessing import MinMaxScaler  # 导入MinMaxScaler，用于数据归一化
import matplotlib.pyplot as plt  # 导入Matplotlib，用于绘制图表

# 加载并预处理数据
data = pd.read_csv('your_timeseries_data.csv')  # 读取CSV文件中的时间序列数据
scaler = MinMaxScaler(feature_range=(0, 1))     # 创建MinMaxScaler对象，用于将数据缩放到[0, 1]区间
data_scaled = scaler.fit_transform(data['value'].values.reshape(-1, 1))  # 对数据进行归一化

# 创建训练数据集
# 该函数通过滑动窗口方式生成训练集输入输出对
def create_dataset(data, look_back=1):
    X, y = [], []  # X用于存储输入数据，y用于存储标签（目标值）
    for i in range(len(data) - look_back - 1):
        # X包含当前时间步之前的'look_back'个数据点
        X.append(data[i:(i + look_back), 0])  
        # y是当前时间步之后的目标值
        y.append(data[i + look_back, 0])  
    return np.array(X), np.array(y)  # 返回输入数据和标签

look_back = 10  # 设置look_back为10，表示每次使用前10天的数据来预测第11天
X, y = create_dataset(data_scaled, look_back)  # 创建训练集

# 重新形状，以适应LSTM的输入格式
X = X.reshape(X.shape[0], X.shape[1], 1)  # 变换数据的形状，使其适应LSTM的输入要求

# 将数据转换为 PyTorch tensor
X = torch.tensor(X, dtype=torch.float32)  # 将输入数据转换为PyTorch张量
y = torch.tensor(y, dtype=torch.float32)  # 将标签数据转换为PyTorch张量

# LSTM模型类
# 定义一个简单的LSTM模型
class LSTMModel(nn.Module):
    def __init__(self, input_size=1, hidden_layer_size=50, output_size=1):
        super(LSTMModel, self).__init__()  # 调用父类的构造函数
        # 创建LSTM层，input_size是输入特征的维度，hidden_layer_size是LSTM隐藏层的大小
        self.lstm = nn.LSTM(input_size, hidden_layer_size, batch_first=True)
        # 创建全连接层，将LSTM的输出转换为预测结果
        self.fc = nn.Linear(hidden_layer_size, output_size)
    
    def forward(self, x):
        # 将输入数据传入LSTM层，获取LSTM层的输出
        lstm_out, _ = self.lstm(x)  
        # 获取LSTM最后一个时间步的输出并传入全连接层
        predictions = self.fc(lstm_out[:, -1, :])  # 只取最后一个时间步的输出
        return predictions  # 返回预测结果

# 初始化模型、损失函数和优化器
model = LSTMModel(input_size=1, hidden_layer_size=50, output_size=1)  # 初始化LSTM模型
loss_function = nn.MSELoss()  # 使用均方误差作为损失函数
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # 使用Adam优化器，学习率为0.001

# 训练模型
epochs = 10  # 设置训练的迭代次数为10
for epoch in range(epochs):
    model.train()  # 设置模型为训练模式
    optimizer.zero_grad()  # 清空梯度，以免与上次迭代的梯度混合
    y_pred = model(X)  # 前向传播，获取预测结果
    loss = loss_function(y_pred.squeeze(), y)  # 计算损失（均方误差）
    loss.backward()  # 反向传播，计算梯度
    optimizer.step()  # 更新模型的权重
    if (epoch + 1) % 2 == 0:  # 每2个epoch打印一次损失值
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

# 预测
model.eval()  # 设置模型为评估模式
with torch.no_grad():  # 在评估时不需要计算梯度
    predictions = model(X).squeeze().numpy()  # 获取预测结果并转换为NumPy数组

# 可视化预测结果
plt.plot(y.numpy(), label='True Value')  # 绘制真实值
plt.plot(predictions, label='Predicted Value')  # 绘制预测值
plt.legend()  # 显示图例
plt.show()  # 展示图形

八、总结

LSTM是一种专门为了解决传统RNN的梯度消失问题而设计的神经网络结构，它能够有效地捕捉长期依赖信息。
LSTM通过遗忘门、输入门和输出门控制信息的流动，使得它能够在处理时间序列数据时表现出色。
在实际应用中，LSTM被广泛用于自然语言处理、时间序列预测、语音识别等任务。
通过简单的代码示例，我们展示了LSTM如何进行时间序列预测任务。