2 14 1

Yujun Zhou

yujunzhou

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

submitted a paper about 1 month ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

updated a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

View all activity

Organizations

None yet

upvoted a paper about 1 month ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Paper • 2512.15687 • Published Dec 17, 2025 • 20

submitted a paper to Daily Papers about 1 month ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Paper • 2512.15687 • Published Dec 17, 2025 • 20

updated 2 models about 1 month ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

Text Generation • 4B • Updated Dec 17, 2025 • 2

yujunzhou/SFT_Advanced_Risk_Self_Grading_llama

Text Generation • 8B • Updated Dec 17, 2025 • 3

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B

Text Generation • 4B • Updated Dec 17, 2025 • 2

updated a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 17, 2025

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Self_Grading_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 17, 2025

updated 2 models about 1 month ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B

Text Generation • 4B • Updated Dec 17, 2025 • 4

yujunzhou/Advanced_Risk_Self_Grading_llama

8B • Updated Dec 17, 2025 • 18

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B

Text Generation • 4B • Updated Dec 17, 2025 • 4

updated a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 16, 2025 • 1

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 16, 2025 • 1

updated 2 models about 1 month ago

yujunzhou/SFT_Advanced_Risk_Reward_Tampering_llama

Text Generation • 8B • Updated Dec 16, 2025 • 3

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 16, 2025 • 6

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B-Base

Text Generation • 4B • Updated Dec 16, 2025 • 6

updated a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B

Text Generation • 4B • Updated Dec 15, 2025 • 1

published a model about 1 month ago

yujunzhou/SFT_Advanced_Risk_Situation_Aware_Qwen3-4B

Text Generation • 4B • Updated Dec 15, 2025 • 1

updated 3 models about 1 month ago

Yujun Zhou

AI & ML interests

Recent Activity

Organizations

yujunzhou's activity