序贯决策(Sequential Decision)是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。
李航NSR论文:深度学习NLP的现有优势与未来挑战
机器之心
0+阅读 · 2017年10月4日
多Agent深度强化学习综述(中文版),21页pdf
强化学习是人工智能的未来?
CSDN
0+阅读 · 2019年11月30日
基于深度强化学习的组合优化研究进展
专知
0+阅读 · 2020年12月11日
参考链接
微信扫码咨询专知VIP会员