• 作者:【罗】卢西恩·布索尼 【荷】罗伯特·巴布斯卡 【荷】巴特·德·舒特 【比】达米安·厄恩斯特 刘全 傅启明 章宗长
  • 分类: 数学

本书讨论大规模连续空间的强化学习理论及方法,重点介绍使用函数逼近的强化学习和动态规划方法。该研究已成为近年来计算机科学与技术领域中最活跃的研究分支之一。全书共分6 章。第1 章为概述;第2 章为动态规划与强化学习介绍;第3 章为大规模连续空间中的动态规划与强化学习;第4 章为基于模糊表示的近似值迭代;第5 章为用于在线学习和连续动作控制的近似策略迭代;第6 章为基于交叉熵基函数优化的近似策略搜索。本书可以作为理工科高等院校计算机专业和自动控制专业研究生的教材,也可以作为相关领域科技工作者和工程技术人员的参考书。

Lucian Buşoniu

荷兰代尔夫特理工大学代尔夫特系统与控制中心博士后研究员。2009 年获得代尔夫特理工大学博士学位,2003 年获得罗马尼亚克卢日·纳波卡科技大学硕士学位。他目前的主要研究方向包括强化学习与近似动态规划、面向控制问题的智能与学习技术以及多Agent学习等。

Robert Babuška

荷兰代尔夫特理工大学代尔夫特系统与控制中心教授。1997 年获得代尔夫特理工大学控制专业博士学位,1990 年获得布拉格捷克技术大学电机工程专业硕士学位。他目前的主要研究方向包括模糊系统建模与识别、神经模糊系统的数据驱动结构与自适应、基于模型的模糊控制和学习控制,并将这些技术应用于机器人、机电一体化和航空航天等领域。

Bart De Schutter

荷兰代尔夫特理工大学代尔夫特系统与控制中心海洋与运输技术系教授。1996 年获得比利时鲁汶...

(展开全部)

Lucian Buşoniu

荷兰代尔夫特理工大学代尔夫特系统与控制中心博士后研究员。2009 年获得代尔夫特理工大学博士学位,2003 年获得罗马尼亚克卢日·纳波卡科技大学硕士学位。他目前的主要研究方向包括强化学习与近似动态规划、面向控制问题的智能与学习技术以及多Agent学习等。

Robert Babuška

荷兰代尔夫特理工大学代尔夫特系统与控制中心教授。1997 年获得代尔夫特理工大学控制专业博士学位,1990 年获得布拉格捷克技术大学电机工程专业硕士学位。他目前的主要研究方向包括模糊系统建模与识别、神经模糊系统的数据驱动结构与自适应、基于模型的模糊控制和学习控制,并将这些技术应用于机器人、机电一体化和航空航天等领域。

Bart De Schutter

荷兰代尔夫特理工大学代尔夫特系统与控制中心海洋与运输技术系教授。1996 年获得比利时鲁汶大学应用科学博士学位。他目前的主要研究方向包括多Agent 系统、混杂系统控制、离散事件系统和智能交通系统控制等。

Damien Ernst

分别于1998 年和2003 年获得比利时列日大学理学硕士及博士学位。他目前是比利时FRS-FNRS 的助理研究员,就职于列日大学的系统与建模研究院。Damien Ernst在2003—2006年间为FRS- FNRS 的博士后研究人员,并在此期间担任剑桥管理机构、麻省理工学院和美国国立卫生研究院的访问研究员,2006—2007学年在高等电力学院(法国)担任教授。他目前的主要研究方向包括电力系统动力学、最优控制、强化学习和动态治疗方案设计等。