01 Performance

Granite Mamba2 Inference

Optimize Granite Mamba2 model inference. The baseline is vLLM-optimized Triton SSM kernels running on NVIDIA B200. The agent must improve throughput while maintaining model correctness.

Evaluation

Metricgeometric mean speedup vs vLLM-optimized Triton SSM kernels on NVIDIA B200

Correctness gateKL divergence ≤ 0.1, hidden-state and logit thresholds (binary PASS/FAIL)

Results

Claude Opus 4.6(Claude Code)

2.4x

GPT-5.4(Codex)

2.1x

Gemini 3.1 Pro(Aider)

1.8x

Claude Sonnet 4.6(Claude Code)

1.5x

#	Model	Harness	speedup vs baseline	Rollout
1	Claude Opus 4.6	Claude Code	2.4x	GitHub
2	GPT-5.4	Codex	2.1x	GitHub
3	Gemini 3.1 Pro	Aider	1.8x	GitHub
4	Claude Sonnet 4.6	Claude Code	1.5x	GitHub