Xinyin Ma's picture

Xinyin Ma

horseee

·

https://horseee.github.io/

horseee

AI & ML interests

None yet

Recent Activity

upvoted a paper 22 days ago

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

upvoted a paper 23 days ago

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

authored a paper 5 months ago

In-Video Instructions: Visual Signals as Generative Control

View all activity

Organizations

upvoted a paper 22 days ago

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Paper • 2603.15726 • Published 24 days ago • 184

upvoted a paper 23 days ago

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Paper • 2603.15478 • Published 24 days ago • 24

upvoted 2 papers 5 months ago

In-Video Instructions: Visual Signals as Generative Control

Paper • 2511.19401 • Published Nov 24, 2025 • 32

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

Paper • 2511.11793 • Published Nov 14, 2025 • 195

upvoted a paper 6 months ago

SparseD: Sparse Attention for Diffusion Language Models

Paper • 2509.24014 • Published Sep 28, 2025 • 31

upvoted 2 papers 10 months ago

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Paper • 2506.16406 • Published Jun 19, 2025 • 133

Discrete Diffusion in Large Language and Multimodal Models: A Survey

Paper • 2506.13759 • Published Jun 16, 2025 • 43

upvoted 5 papers 11 months ago

Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

Paper • 2505.18675 • Published May 24, 2025 • 27

VeriThinker: Learning to Verify Makes Reasoning Model Efficient

Paper • 2505.17941 • Published May 23, 2025 • 25

Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Paper • 2505.16990 • Published May 22, 2025 • 22

dKV-Cache: The Cache for Diffusion Language Models

Paper • 2505.15781 • Published May 21, 2025 • 16

Thinkless: LLM Learns When to Think

Paper • 2505.13379 • Published May 19, 2025 • 50

upvoted 2 papers about 1 year ago

Introducing Visual Perception Token into Multimodal Large Language Model

Paper • 2502.17425 • Published Feb 24, 2025 • 16

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

Paper • 2502.09601 • Published Feb 13, 2025 • 14

upvoted 5 papers over 1 year ago

TinyFusion: Diffusion Transformers Learned Shallow

Paper • 2412.01199 • Published Dec 2, 2024 • 14

Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Paper • 2411.17787 • Published Nov 26, 2024 • 12

Heavy Labels Out! Dataset Distillation with Label Space Lightening

Paper • 2408.08201 • Published Aug 15, 2024 • 21

KAN or MLP: A Fairer Comparison

Paper • 2407.16674 • Published Jul 23, 2024 • 43

Compositional Video Generation as Flow Equalization

Paper • 2407.06182 • Published Jun 10, 2024 • 13

upvoted a collection almost 2 years ago

Nemotron 4 340B

Nemotron-4: open models for Synthetic Data Generation (SDG). Includes Base, Instruct, and Reward models. • 4 items • Updated 3 days ago • 163