Run Llama3 inference on API server #377

nwatab · 2025-01-21T03:47:25Z

Does anyone know how to run HTTP server that runs Llama inference on it? I searched ending up find no helpful resource about integration with application/WSGI server (ex. Flask, gunicorn). The Llama3 tutorial uses torchrun, but what it does under the hood seems a bit complicated.

Edited:
LLM server scale is limited to the number of GPUs, so we might not need WSGI server in most cases

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Run Llama3 inference on API server #377

Run Llama3 inference on API server #377

nwatab commented Jan 21, 2025 •

edited

Loading

Run Llama3 inference on API server #377

Run Llama3 inference on API server #377

Comments

nwatab commented Jan 21, 2025 • edited Loading

nwatab commented Jan 21, 2025 •

edited

Loading