【强化学习】这绝对是B站2025年强化学习入门的天花板教程！（理论+实战）全精讲！全程干货无废话！小白也能信手拈来！让你少走99%弯路！学完即可就业！！！-AI技术圈

简介

本课程是上海交通大学张伟楠教授倾力打造的强化学习（Reinforcement Learning）系统教程，堪称B站2025年强化学习入门的天花板级资源。课程覆盖从基础概念到前沿算法的完整知识体系，共32集，全程干货无废话，理论结合实战，帮助零基础小白快速入门，并具备就业级竞争力。课程内容涵盖强化学习简介、探索与利用、马尔可夫决策过程（MDP）、动态规划、值函数估计（蒙特卡洛、TD）、无模型控制方法（Q学习、Sarsa）、规划与学习（Dyna）、参数化值函数与策略（线性逼近、策略梯度）、深度强化学习（DQN、DDPG、PPO等）、基于模型的深度强化学习、模仿学习、离线强化学习、多智能体强化学习、AI Agent与决策大模型（如Decision Transformer）、基于扩散模型的强化学习等前沿方向。课程由上交大名师亲授，理论推导清晰，并配有实战项目演示，帮助学员建立扎实的强化学习理论基础和工程能力。无论你是AI初学者、算法工程师，还是希望从事强化学习研究的学者，本课程都将助你少走99%的弯路，学完即可踏上AI就业快车道。

各集标题与链接

上海交大张伟楠强化学习课程第1讲：强化学习简介I

内容小结：介绍强化学习的基本概念、发展历史、与监督学习的区别以及典型应用场景。
视频链接：点击观看

上海交大张伟楠强化学习课程第1讲：强化学习简介II

内容小结：继续讲解强化学习的基本元素（智能体、环境、状态、动作、奖励、策略、值函数、模型）。
视频链接：点击观看

上海交大张伟楠强化学习课程第1讲：强化学习简介III

内容小结：强化学习的分类（基于模型与无模型、基于值函数与基于策略、在线与离线等）。
视频链接：点击观看

上海交大张伟楠强化学习课程第2讲：探索与利用

内容小结：探索与利用的权衡，ε-贪婪策略、置信上界（UCB）、汤普森采样等经典方法。
视频链接：点击观看

上海交大张伟楠强化学习课程第3讲：马尔可夫决策过程I

内容小结：马尔可夫决策过程（MDP）的形式化定义，马尔可夫性质，转移概率、回报与折扣因子。
视频链接：点击观看

上海交大张伟楠强化学习课程第3讲：马尔可夫决策过程II

内容小结：策略、状态值函数、动作值函数、贝尔曼方程及其推导。
视频链接：点击观看

上海交大张伟楠强化学习课程第4讲：动态规划

内容小结：利用动态规划求解MDP，策略迭代、值迭代，以及广义策略迭代（GPI）。
视频链接：点击观看

上海交大张伟楠强化学习课程第5讲：值函数估计I

内容小结：蒙特卡洛方法，首次访问MC与每次访问MC，用于无模型环境下的值函数估计。
视频链接：点击观看

上海交大张伟楠强化学习课程第5讲：值函数估计II

内容小结：时序差分（TD）学习，TD(0)更新公式，MC与TD的对比，n步TD。
视频链接：点击观看

上海交大张伟楠强化学习课程第6讲：无模型控制方法I

内容小结：同策略的蒙特卡洛控制（ε-贪婪策略），以及同策略的TD控制——Sarsa算法。
视频链接：点击观看

上海交大张伟楠强化学习课程第6讲：无模型控制方法II

内容小结：异策略的TD控制——Q学习，Sarsa与Q学习的对比，以及期望Sarsa。
视频链接：点击观看

上海交大张伟楠强化学习课程第7讲：规划与学习I

内容小结：规划（基于模型的RL）与学习（无模型RL）的结合，Dyna架构。
视频链接：点击观看

上海交大张伟楠强化学习课程第7讲：规划与学习II

内容小结：优先级扫描、基于模拟的搜索、蒙特卡洛树搜索（MCTS）简介。
视频链接：点击观看

上海交大张伟楠强化学习课程第8讲：参数化的值函数和策略I

内容小结：大规模状态空间下的函数逼近，线性值函数逼近，特征构建，梯度下降更新。
视频链接：点击观看

上海交大张伟楠强化学习课程第11讲：基于模型的深度强化学习III

内容小结：本讲原顺序靠后，此处讲解基于模型的深度RL高级话题，如PlaNet、Dreamer等。
视频链接：点击观看

上海交大张伟楠强化学习课程第8讲：参数化的值函数和策略II

内容小结：非线性逼近（神经网络），深度学习与RL的结合，收敛性及稳定性挑战。
视频链接：点击观看

上海交大张伟楠强化学习课程第9讲：深度强化学习价值方法I

内容小结：深度Q网络（DQN），经验回放、目标网络，解决不稳定性。
视频链接：点击观看

上海交大张伟楠强化学习课程第9讲：深度强化学习价值方法II

内容小结：DQN的改进算法（Double DQN、Dueling DQN、优先经验回放等）。
视频链接：点击观看

上海交大张伟楠强化学习课程第10讲：深度强化学习策略方法I

内容小结：策略梯度定理，REINFORCE算法，减少方差的方法（baseline）。
视频链接：点击观看

上海交大张伟楠强化学习课程第10讲：深度强化学习策略方法II

内容小结：Actor-Critic方法，A2C/A3C，以及DDPG、PPO、SAC等现代深度策略优化算法。
视频链接：点击观看

上海交大张伟楠强化学习课程第11讲：基于模型的深度强化学习I

内容小结：学习环境模型，使用模型进行规划，模型的不确定性与利用。
视频链接：点击观看

上海交大张伟楠强化学习课程第11讲：基于模型的深度强化学习II

内容小结：MBRL算法分类（模型预测控制、模型辅助策略优化等），以及与无模型RL的结合。
视频链接：点击观看

上海交大张伟楠强化学习课程第12讲：模仿学习II

内容小结：模仿学习概述，行为克隆、逆强化学习（IRL）、生成对抗模仿学习（GAIL）。
视频链接：点击观看

上海交大张伟楠强化学习课程第13讲：离线强化学习

内容小结：离线RL（batch RL）问题定义，分布偏移，保守Q学习（CQL）、BEAR等算法。
视频链接：点击观看

上海交大张伟楠强化学习课程第14讲：多智能体强化学习I

内容小结：多智能体系统，合作与竞争，Markov博弈，基本概念与挑战。
视频链接：点击观看

上海交大张伟楠强化学习课程第14讲：多智能体强化学习II

内容小结：多智能体方法分类（独立学习、集中式训练分散式执行等），VDN、QMIX等算法。
视频链接：点击观看

上海交大张伟楠强化学习课程第14讲：多智能体强化学习III

内容小结：多智能体策略梯度方法（MADDPG），反事实基线（COMA）。
视频链接：点击观看

上海交大张伟楠强化学习课程第14讲：多智能体强化学习IV

内容小结：多智能体强化学习的前沿话题，如大规模多智能体、平均场博弈等。
视频链接：点击观看

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型I

内容小结：将大语言模型用于决策，决策Transformer（DT）、轨迹Transformer等。
视频链接：点击观看

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型II

内容小结：使用LLM作为智能体进行环境交互，Voyager、GATO等代表性工作。
视频链接：点击观看

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型III

内容小结：决策大模型的训练范式、微调方法以及在具身智能中的应用。
视频链接：点击观看

上海交大张伟楠强化学习课程第16讲：基于扩散模型的强化学习

内容小结：扩散模型在强化学习中的应用，如策略表示、数据生成、规划等前沿方向。
视频链接：点击观看

说明：以上链接可直接点击跳转对应集数观看。

📲 申请成为合伙人

简介