摘要:近年來深度學習作為學術界與工業界共同關注的熱點,取得了飛躍式的發展,在計算機視覺、語音識別等領域取得了令人矚目的成果.深度學習分訓練與推理兩個階段,在實際應用中主要關注的是推理階段.深度學習推理過程中伴隨著巨大的計算量,通過分布式系統提高其計算速度也得到了越來越多的關注.然而,構建分布式深度學習推理系統面臨著深度學習加速設備更新迭代快速、上層應用及計算任務復雜多樣等挑戰.本文設計并實現的系統信息管理框架,用于收集并處理系統中的各類信息,收集及處理的規則具有高度的可擴展性和靈活性,并提供通用的RESTful API數據訪問接口,以支持分布式深度學習推理系統對各類硬件加速器的靈活兼容性以及對任務調度策略的動態調整能力.最后,本文通過一個應用實例對該框架的功能進行驗證并對實驗結果進行分析.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社