OpenEvals

community

AI & ML interests

LLM evaluation

Recent Activity

nielsr submitted a paper 7 days ago

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

nielsr submitted a paper 14 days ago

Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

nielsr submitted a paper 20 days ago

View all activity

OpenEvals 's datasets 5

OpenEvals/leaderboard-data

Viewer • Updated Mar 28 • 105 • 1.25k • 1

OpenEvals/IMO-AnswerBench

Viewer • Updated Jan 23 • 400 • 538 • 2

OpenEvals/MuSR

Viewer • Updated Dec 12, 2025 • 756 • 174

OpenEvals/aime_24

Viewer • Updated Dec 12, 2025 • 30 • 65 • 1

OpenEvals/SimpleQA

Viewer • Updated Dec 12, 2025 • 4.33k • 1.3k • 4