vivekvar
/

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Text Generation

reinforcement-learning

mathematical-reasoning

policy-optimization

sequence-level-training

Model card Files Files and versions

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Commit History

Update README.md

3840067
verified

vivekvar commited on Jul 31, 2025

Update README.md

afe6a9d
verified

vivekvar commited on Jul 31, 2025

Upload folder using huggingface_hub

201b329
verified

vivekvar commited on Jul 31, 2025

initial commit

62ad658
verified

vivekvar commited on Jul 31, 2025