封面
版权信息
内容简介
好评袭来
前言
第一部分 基础理论篇
1 马尔可夫决策过程
1.1 马尔可夫性
1.2 一些基本定义
1.3 值函数
1.4 基于策略的值函数
1.5 贝尔曼方程
1.6 策略迭代与值迭代
2 无模型的强化学习
2.1 蒙特卡罗方法
2.2 时间差分方法
2.3 值函数估计和策略搜索
3 有模型的强化学习
3.1 什么是模型
3.2 基本思路
3.3 有模型方法和无模型方法的区别
3.4 典型算法
第二部分 常用算法篇
4 DQN算法
- APP免费
4.1 算法介绍
- APP免费
4.2 相关改进
- APP免费
4.3 实验效果与小结
- APP免费
5 A3C算法
- APP免费
5.1 Actor-Critic方法
- APP免费
5.2 基线减法与优势函数
- APP免费
5.3 博采众长的A3C算法
- APP免费
5.4 实验效果与小结
- APP免费
6 确定性策略梯度方法
- APP免费
6.1 随机性策略梯度与确定性策略梯度
- APP免费
6.2 异策略的确定性策略梯度
- APP免费
6.3 深度确定性策略梯度
- APP免费
6.4 D4PG算法
- APP免费
6.5 实验效果与小结
- APP免费
7 PPO算法
- APP免费
7.1 PPO算法的核心
- APP免费
7.2 TRPO算法
- APP免费
7.3 PPO算法
- APP免费
7.4 实验效果与小结
- APP免费
8 IMPALA算法
- APP免费
8.1 算法架构
- APP免费
8.2 V-trace算法
- APP免费
8.3 V-trace Actor-Critic算法
- APP免费
8.4 实验效果与小结
- APP免费
第三部分 应用实践篇
- APP免费
9 深度强化学习在棋牌游戏中的应用
- APP免费
9.1 棋盘类游戏
- APP免费
9.2 牌类游戏
- APP免费
10 深度强化学习在电子游戏中的应用
- APP免费
10.1 研发游戏中的机器人
- APP免费
10.2 制作游戏动画
- APP免费
10.3 其他应用
- APP免费
11 深度强化学习在推荐系统中的应用
- APP免费
11.1 适用的场景
- APP免费
11.2 淘宝锦囊推荐中的应用
- APP免费
12 深度强化学习在其他领域中的应用
- APP免费
12.1 在无人驾驶中的应用
- APP免费
12.2 金融交易中的应用
- APP免费
12.3 信息安全中的应用
- APP免费
12.4 自动调参中的应用
- APP免费
12.5 交通控制中的应用
- APP免费
第四部分 总结与展望篇
- APP免费
13 问题与挑战
- APP免费
13.1 样本利用率低
- APP免费
13.2 奖赏函数难以设计
- APP免费
13.3 实验效果难复现
- APP免费
13.4 行为不完全可控
- APP免费
14 深度强化学习往何处去
- APP免费
14.1 未来发展和研究方向
- APP免费
14.2 审慎乐观,大有可为
- APP免费
参考资料
更新时间:2021-10-15 19:00:07