TirGun: SberRobotics Qwen3-VL-2B-Instruct-action (GGUF)

English Version | Русская версия


English Version

Lightweight and fast weights for the Qwen3-VL-2B-Instruct-action model by the SberRoboticsCenter team. This build is prepared for efficient local execution (CPU, 8GB VRAM GPU) via llama.cpp and Ollama.

Technical Information:

  • Conversion Tool: llama.cpp build 8373 (commit 46dba9fce).

📝 About the Model

The 2B version is a compact Vision-Language-Action (VLA) model. It is designed for tasks where low latency is critical (real-time processing) while maintaining the ability to predict coordinates for robotic systems.

This model is a specialized Vision-Language-Action (VLA) agent developed by SberRoboticsCenter. It serves as the foundational architecture and instruction-tuned base for the Green-VLA project.

The model is fine-tuned to predict precise spatial coordinates and plan robotic actions, bridging the gap between visual understanding and physical execution.

Research Paper: Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

🛠 Use Cases & Practical Applications

  • 🤖 Robotics & Control: High-precision object detection for pick-and-place tasks. The model generates coordinates [ymin, xmin, ymax, xmax] for robotic manipulators.
  • 🖥 UI Automation & RPA: Visual navigation of software interfaces. Ideal for testing apps or automating legacy software without APIs by "seeing" buttons and fields.
  • 🏭 Industrial Vision: Quality control on assembly lines, safety monitoring (PPE detection), and obstacle analysis for AGV/AMR robots.
  • 📄 Advanced OCR: Extracting data from complex layouts like blueprints, receipts, and multilingual documents where context is key.

📂 Available Weights

File Method Size Status
Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf Q4_K_M 1.03 GB ✅ Done
Sber_Qwen3-VL-2B-Instruct-action-Q5_K_M.gguf Q5_K_M 1.17 GB ✅ Done
Sber_Qwen3-VL-2B-Instruct-action-Q6_K.gguf Q6_K 1.32 GB ✅ Done
Sber_Qwen3-VL-2B-Instruct-action-Q8_0.gguf Q8_0 1.71 GB ✅ Done
mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf F16 781 MB Eyes (High)
mmproj-Sber_Qwen3-VL-2B-Instruct-action-Q8_0.gguf Q8_0 424 MB Eyes (Opt)

🚀 Usage Instructions

1. Via llama.cpp (CLI)

./llama-cli -m Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf \
            --mmproj mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf \
            --image "path/to/your/image.jpg" \
            -p "<|im_start|>user\n<|vision_start|><|vision_end|>Describe the objects in the photo.<|im_end|>\n<|im_start|>assistant\n" \
            -n 512 --temp 0.1
  • Note: In the --image parameter, specify the path to your test image (supported formats: .jpg, .png).

2. Via Ollama

Create a Modelfile:

FROM ./Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf
ADAPTER ./mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf
PARAMETER num_ctx 16384
PARAMETER num_gpu 99

Then: ollama create sber-action -f Modelfile


⚠️ Testing Status (WIP)

Technical correctness of the conversion is confirmed. Functional verification of Action capabilities (coordinate prediction accuracy in GGUF) is currently in progress.


⚖️ License

Distributed under Apache 2.0. Used original model by the SberRoboticsCenter team.


Developed within the TirGun project. Local AI. Privacy. Efficiency.



Русская версия

Легкие и быстрые веса модели Qwen3-VL-2B-Instruct-action от команды SberRoboticsCenter. Сборка подготовлена для эффективного запуска на локальном железе (CPU, GPU с 8GB VRAM) через llama.cpp и Ollama.

Техническая информация:

  • Инструмент конвертации: llama.cpp билд 8373 (коммит 46dba9fce).

📝 О модели

Версия 2B — это компактная Vision-Language-Action (VLA) модель. Она предназначена для задач, где критически важна низкая задержка (обработка в реальном времени), сохраняя при этом способность предсказывать координаты для робототехнических систем.

Данная модель является специализированным Vision-Language-Action (VLA) агентом, разработанным командой SberRoboticsCenter. Она послужила фундаментальной архитектурой и базой для проекта Green-VLA.

Модель дообучена для предсказания точных пространственных координат и планирования действий роботов, выступая связующим звеном между визуальным восприятием и физическим исполнением задач.

Научная работа: Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

🛠 Области применения и практика

  • 🤖 Робототехника: Высокоточное детектирование объектов для задач захвата (Pick-and-Place). Модель выдает нормализованные координаты [ymin, xmin, ymax, xmax] для манипуляторов.
  • 🖥 Автоматизация UI (RPA): Визуальная навигация по интерфейсам программ. Идеально для тестирования ПО или управления старым софтом через "зрение", находя кнопки и поля ввода.
  • 🏭 Индустриальное зрение: Контроль качества на линиях, мониторинг техники безопасности (наличие касок/жилетов) и анализ препятствий для мобильных роботов.
  • 📄 Продвинутый OCR: Извлечение данных из чертежей, чеков и сложных мультиязычных документов, где важен контекст и структура.

📂 Состав сборки

Файл Метод Размер Статус
Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf Q4_K_M 1.03 Гб ✅ Готов
Sber_Qwen3-VL-2B-Instruct-action-Q5_K_M.gguf Q5_K_M 1.17 Гб ✅ Готов
Sber_Qwen3-VL-2B-Instruct-action-Q6_K.gguf Q6_K 1.32 Гб ✅ Готов
Sber_Qwen3-VL-2B-Instruct-action-Q8_0.gguf Q8_0 1.71 Гб ✅ Готов
mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf F16 781 Мб Глаза (High)
mmproj-Sber_Qwen3-VL-2B-Instruct-action-Q8_0.gguf Q8_0 424 Мб Глаза (Opt)

🚀 Инструкция по запуску

1. Через llama.cpp (CLI)

./llama-cli -m Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf \
            --mmproj mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf \
            --image "path/to/your/image.jpg" \
            -p "<|im_start|>user\n<|vision_start|><|vision_end|>Опиши объекты на фото.<|im_end|>\n<|im_start|>assistant\n" \
            -n 512 --temp 0.1
  • Примечание: В параметре --image укажите путь к вашему тестовому изображению (поддерживаются форматы .jpg, .png).

2. Через Ollama

Создайте Modelfile:

FROM ./Sber_Qwen3-VL-2B-Instruct-action-Q4_K_M.gguf
ADAPTER ./mmproj-Sber_Qwen3-VL-2B-Instruct-action-F16.gguf
PARAMETER num_ctx 16384
PARAMETER num_gpu 99

Запуск: ollama create sber-action -f Modelfile


⚠️ Testing Status (WIP / В процессе)

Technical correctness of the conversion is confirmed. Functional verification of Action capabilities (coordinate prediction accuracy in GGUF) is currently in progress. Техническая корректность конвертации подтверждена. Этап верификации Action-способностей (точность предсказания координат в GGUF) находится в процессе.

⚖️ Лицензия

Данная модель распространяется под лицензией Apache 2.0. Использована оригинальная модель от команды SberRoboticsCenter.


Developed within the TirGun project. Local AI. Privacy. Efficiency.


Downloads last month
43
GGUF
Model size
2B params
Architecture
qwen3vl
Hardware compatibility
Log In to add your hardware

4-bit

5-bit

6-bit

8-bit

Video Preview
loading

Model tree for TirGun/Sber_Qwen3-VL-2B-Instruct-action-GGUF

Collection including TirGun/Sber_Qwen3-VL-2B-Instruct-action-GGUF

Paper for TirGun/Sber_Qwen3-VL-2B-Instruct-action-GGUF