Workshop

Inference Optimization Workshop

A technical session on latency reduction, throughput tuning, and cost-aware serving design for GenAI workloads.

Focus areas

The session is intended for engineers operating serving infrastructure, not first-time GenAI users.