JoyRL开发周报

输入“/”快速插入内容

JoyRL开发周报

用户1289

用户4174

用户2454

2024年1月28日修改

20240127

【功能优化】

1.
0.5.2 版本发布​

增加learn_frequency功能，避免DQN等算法在n_interactors=1时训久了容易过拟合的问题，

验证

3.
优化action layer功能，使得更好兼容连续和离散动作空间，已经同步到DQN、PPO、DDPG、TD3等算法​

4.
优化多头输入与多头输出等相关支持​

5.
完善ContinuousActionLayer，支持连续动作空间​

【Benchmark】

ALE/Breakout-v5_PPO，已完成，测试最高分64分

ALE/Pong-v5_PPO，训练中，不过得分一直为负，还在查明原因

20240121

【功能支持】

1.
优化动作空间，以便于支持多个动作头输出​

2.
优化PPO，现支持多进程和off policy版本​

3.
优化PPO计算回报的方法，并移动到data handler中数据​

4.
优化exps_trucation_size过大时堵塞learner学习的问题​

【Bug相关】

1.
n_interactors大于1且device等于cuda时会触发bug​

2.
定位DQN训到一定回合数loss崩溃的问题（过拟合），拟在buffer中增加train_frequency功能，即只有增加新的样本时才能取出样本训练​

【Benchmark】

1.
ALE/DemonAttack-v5 benchmark​
a.
wrapper中增加BaseSkipFrame：支持起始跳帧，不同跳帧数，图片环境裁剪​

20240113

更新至0.4.9.1 版本

【功能支持】

增加CNN网络

2.
网络优化为branch layer和merge layer，以便于支持多头输入​

3.
增加Qlearning和Sarsa算法​

【Bug相关】

1.
修复on policy的bufferque中(Qlearning, PPO)训练样本频繁丢失的bug​

【TOCheck】DQN训练LunarLander-v2至300回合左右reward骤降loss陡升，减少max_step可缓解，仍需要check是否修复，

【Benchmark】

CarRacing-v2 benchmark，

20240106

JoyRL更新至0.4.8版本

1.
 完善ray异步框架的问题，训练速度相较于之前提升约一倍；​

2.
合并单进程和多进程代码，提高兼容性；​

3.
modelmgr更名为policymgr；​

4.
修复online tester会造成内存溢出的bug；​

5.
修复get_action函数中mode传参的bug；​

6.
优化各module中的线程问题，避免堵塞等​

JoyRL开发周报​