Datawhale
用户1289
添加快捷方式
分享
JoyRL开发周报
输入“/”快速插入内容
JoyRL开发周报
用户1289
用户4174
用户2454
2024年1月28日修改
20240127
【功能优化】
1.
0.5.2 版本发布
2.
增加learn_frequency功能,避免DQN等算法在n_interactors=1时训久了容易过拟合的问题,
用户4829
验证
3.
优化action layer功能,使得更好兼容连续和离散动作空间,已经同步到DQN、PPO、DDPG、TD3等算法
4.
优化多头输入与多头输出等相关支持
5.
完善ContinuousActionLayer,支持连续动作空间
【Benchmark】
1.
ALE/Breakout-v5_PPO,已完成,测试最高分64分
用户2454
2.
ALE/Pong-v5_PPO,训练中,不过得分一直为负,还在查明原因
用户2454
20240121
【功能支持】
1.
优化动作空间,以便于支持多个动作头输出
2.
优化PPO,现支持多进程和off policy版本
3.
优化PPO计算回报的方法,并移动到data handler中数据
4.
优化exps_trucation_size过大时堵塞learner学习的问题
【Bug相关】
1.
n_interactors大于1且device等于cuda时会触发bug
2.
定位DQN训到一定回合数loss崩溃的问题(过拟合),拟在buffer中增加train_frequency功能,即只有增加新的样本时才能取出样本训练
【Benchmark】
1.
ALE/DemonAttack-v5 benchmark
a.
wrapper中增加BaseSkipFrame:支持起始跳帧,不同跳帧数,图片环境裁剪
20240113
更新至0.4.9.1 版本
【功能支持】
1.
增加CNN网络
用户4174
2.
网络优化为branch layer和merge layer,以便于支持多头输入
3.
增加Qlearning和Sarsa算法
【Bug相关】
1.
修复on policy的bufferque中(Qlearning, PPO)训练样本频繁丢失的bug
2.
【TOCheck】DQN训练LunarLander-v2至300回合左右reward骤降loss陡升,减少max_step可缓解,仍需要check是否修复,
用户4829
用户2454
用户4174
【Benchmark】
1.
CarRacing-v2 benchmark,
用户4174
20240106
JoyRL更新至0.4.8版本
1.
完善ray异步框架的问题,训练速度相较于之前提升约一倍;
2.
合并单进程和多进程代码,提高兼容性;
3.
modelmgr更名为policymgr;
4.
修复online tester会造成内存溢出的bug;
5.
修复get_action函数中mode传参的bug;
6.
优化各module中的线程问题,避免堵塞等