Wei Lin

Linked Presentation:

Llumnix: Dynamic Scheduling for Large Language Model Serving

MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric Architectures