RL post-training - a jaygala24 Collection

jaygala24 's Collections

RL post-training

RL post-training

updated 27 days ago

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated Apr 20 • 228
jaygala24/Qwen3-4B-GRPO-math-reasoning

Text Generation • 4B • Updated Apr 20 • 128
jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated Apr 20 • 118
jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated 30 days ago • 363
jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated 27 days ago • 786
jaygala24/Qwen3-1.7B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 138
jaygala24/Qwen3-1.7B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 155
jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 173
jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated about 1 month ago • 354
jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated about 1 month ago • 385
jaygala24/Qwen2.5-3B-GRPO-KL-math-reasoning

Text Generation • 3B • Updated Apr 20 • 97
jaygala24/Qwen2.5-3B-GRPO-math-reasoning

Text Generation • 3B • Updated Apr 20 • 88
jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated Apr 20 • 113
jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated about 1 month ago • 343
jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated about 1 month ago • 356
jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 105
jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 115
jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 105
jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated about 1 month ago • 328
jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated about 1 month ago • 547
jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 89
jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 96
jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 79
jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated about 1 month ago • 321
jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated about 1 month ago • 311