申请号:CN201810601576.1
专利名称:基于状态特征和后继特征的特征与策略的联合学习方法
发明人:查正军; 李厚强; 冯晓云; 李斌; 王子磊
专利类型:发明专利
摘要:
本发明公开了一种状态特征和后继特征的联合策略学习方法,包括:通过学习从输入状态到即时奖励的映射,获得表征输入状态的状态特征;通过学习从状态特征到价值评估函数的映射,获得后继特征;获得的状态特征与后继特征处于不同的时间分辨率上,将状态特征与后继特征融合后,再采用多种多样方式的策略学习网络对融合结果进行学习。与传统的Agent网络相比,本发明更高效的利用了样本信息,与其他算法相比,学习速度明显加快,网络也能更快的收敛且获得较好的学习效果。
