简介
本课程是上海交通大学张伟楠教授倾力打造的强化学习(Reinforcement Learning)系统教程,堪称B站2025年强化学习入门的天花板级资源。课程覆盖从基础概念到前沿算法的完整知识体系,共32集,全程干货无废话,理论结合实战,帮助零基础小白快速入门,并具备就业级竞争力。课程内容涵盖强化学习简介、探索与利用、马尔可夫决策过程(MDP)、动态规划、值函数估计(蒙特卡洛、TD)、无模型控制方法(Q学习、Sarsa)、规划与学习(Dyna)、参数化值函数与策略(线性逼近、策略梯度)、深度强化学习(DQN、DDPG、PPO等)、基于模型的深度强化学习、模仿学习、离线强化学习、多智能体强化学习、AI Agent与决策大模型(如Decision Transformer)、基于扩散模型的强化学习等前沿方向。课程由上交大名师亲授,理论推导清晰,并配有实战项目演示,帮助学员建立扎实的强化学习理论基础和工程能力。无论你是AI初学者、算法工程师,还是希望从事强化学习研究的学者,本课程都将助你少走99%的弯路,学完即可踏上AI就业快车道。
各集标题与链接
上海交大张伟楠强化学习课程第1讲:强化学习简介I
内容小结:介绍强化学习的基本概念、发展历史、与监督学习的区别以及典型应用场景。
视频链接:点击观看
上海交大张伟楠强化学习课程第1讲:强化学习简介II
内容小结:继续讲解强化学习的基本元素(智能体、环境、状态、动作、奖励、策略、值函数、模型)。
视频链接:点击观看
上海交大张伟楠强化学习课程第1讲:强化学习简介III
内容小结:强化学习的分类(基于模型与无模型、基于值函数与基于策略、在线与离线等)。
视频链接:点击观看
上海交大张伟楠强化学习课程第2讲:探索与利用
内容小结:探索与利用的权衡,ε-贪婪策略、置信上界(UCB)、汤普森采样等经典方法。
视频链接:点击观看
上海交大张伟楠强化学习课程第3讲:马尔可夫决策过程I
内容小结:马尔可夫决策过程(MDP)的形式化定义,马尔可夫性质,转移概率、回报与折扣因子。
视频链接:点击观看
上海交大张伟楠强化学习课程第3讲:马尔可夫决策过程II
内容小结:策略、状态值函数、动作值函数、贝尔曼方程及其推导。
视频链接:点击观看
上海交大张伟楠强化学习课程第4讲:动态规划
内容小结:利用动态规划求解MDP,策略迭代、值迭代,以及广义策略迭代(GPI)。
视频链接:点击观看
上海交大张伟楠强化学习课程第5讲:值函数估计I
内容小结:蒙特卡洛方法,首次访问MC与每次访问MC,用于无模型环境下的值函数估计。
视频链接:点击观看
上海交大张伟楠强化学习课程第5讲:值函数估计II
内容小结:时序差分(TD)学习,TD(0)更新公式,MC与TD的对比,n步TD。
视频链接:点击观看
上海交大张伟楠强化学习课程第6讲:无模型控制方法I
内容小结:同策略的蒙特卡洛控制(ε-贪婪策略),以及同策略的TD控制——Sarsa算法。
视频链接:点击观看
上海交大张伟楠强化学习课程第6讲:无模型控制方法II
内容小结:异策略的TD控制——Q学习,Sarsa与Q学习的对比,以及期望Sarsa。
视频链接:点击观看
上海交大张伟楠强化学习课程第7讲:规划与学习I
内容小结:规划(基于模型的RL)与学习(无模型RL)的结合,Dyna架构。
视频链接:点击观看
上海交大张伟楠强化学习课程第7讲:规划与学习II
内容小结:优先级扫描、基于模拟的搜索、蒙特卡洛树搜索(MCTS)简介。
视频链接:点击观看
上海交大张伟楠强化学习课程第8讲:参数化的值函数和策略I
内容小结:大规模状态空间下的函数逼近,线性值函数逼近,特征构建,梯度下降更新。
视频链接:点击观看
上海交大张伟楠强化学习课程第11讲:基于模型的深度强化学习III
内容小结:本讲原顺序靠后,此处讲解基于模型的深度RL高级话题,如PlaNet、Dreamer等。
视频链接:点击观看
上海交大张伟楠强化学习课程第8讲:参数化的值函数和策略II
内容小结:非线性逼近(神经网络),深度学习与RL的结合,收敛性及稳定性挑战。
视频链接:点击观看
上海交大张伟楠强化学习课程第9讲:深度强化学习价值方法I
内容小结:深度Q网络(DQN),经验回放、目标网络,解决不稳定性。
视频链接:点击观看
上海交大张伟楠强化学习课程第9讲:深度强化学习价值方法II
内容小结:DQN的改进算法(Double DQN、Dueling DQN、优先经验回放等)。
视频链接:点击观看
上海交大张伟楠强化学习课程第10讲:深度强化学习策略方法I
内容小结:策略梯度定理,REINFORCE算法,减少方差的方法(baseline)。
视频链接:点击观看
上海交大张伟楠强化学习课程第10讲:深度强化学习策略方法II
内容小结:Actor-Critic方法,A2C/A3C,以及DDPG、PPO、SAC等现代深度策略优化算法。
视频链接:点击观看
上海交大张伟楠强化学习课程第11讲:基于模型的深度强化学习I
内容小结:学习环境模型,使用模型进行规划,模型的不确定性与利用。
视频链接:点击观看
上海交大张伟楠强化学习课程第11讲:基于模型的深度强化学习II
内容小结:MBRL算法分类(模型预测控制、模型辅助策略优化等),以及与无模型RL的结合。
视频链接:点击观看
上海交大张伟楠强化学习课程第12讲:模仿学习II
内容小结:模仿学习概述,行为克隆、逆强化学习(IRL)、生成对抗模仿学习(GAIL)。
视频链接:点击观看
上海交大张伟楠强化学习课程第13讲:离线强化学习
内容小结:离线RL(batch RL)问题定义,分布偏移,保守Q学习(CQL)、BEAR等算法。
视频链接:点击观看
上海交大张伟楠强化学习课程第14讲:多智能体强化学习I
内容小结:多智能体系统,合作与竞争,Markov博弈,基本概念与挑战。
视频链接:点击观看
上海交大张伟楠强化学习课程第14讲:多智能体强化学习II
内容小结:多智能体方法分类(独立学习、集中式训练分散式执行等),VDN、QMIX等算法。
视频链接:点击观看
上海交大张伟楠强化学习课程第14讲:多智能体强化学习III
内容小结:多智能体策略梯度方法(MADDPG),反事实基线(COMA)。
视频链接:点击观看
上海交大张伟楠强化学习课程第14讲:多智能体强化学习IV
内容小结:多智能体强化学习的前沿话题,如大规模多智能体、平均场博弈等。
视频链接:点击观看
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型I
内容小结:将大语言模型用于决策,决策Transformer(DT)、轨迹Transformer等。
视频链接:点击观看
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型II
内容小结:使用LLM作为智能体进行环境交互,Voyager、GATO等代表性工作。
视频链接:点击观看
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型III
内容小结:决策大模型的训练范式、微调方法以及在具身智能中的应用。
视频链接:点击观看
上海交大张伟楠强化学习课程第16讲:基于扩散模型的强化学习
内容小结:扩散模型在强化学习中的应用,如策略表示、数据生成、规划等前沿方向。
视频链接:点击观看
说明:以上链接可直接点击跳转对应集数观看。
回复