摘要:針對已有自適應PID控制器收斂速度慢和計算效率低的不足,基于異步優勢行動者評論家(Asynchronous Advantage Actor-Critic,A3C)算法設計了一種新的自適應PID控制器.該控制器利用A3C結構的多線程異步學習特性,并行訓練多個行動者評論家(Actor-Critic,AC)結構的智能體,每個智能體采用多層前饋神經網絡逼近策略函數和值函數實現在連續動作空間中搜索最優的參數整定策略,以達到最佳的控制效果.算法在提高計算效率的同時降低了學習樣本的相關性.在仿真實驗中通過與已有的多種自適應PID控制器性能的對比分析說明,該方法具有收斂速度快、自適應能力強的特點.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社