
Requisitos de VRAM del modelo de IA en distintas configuraciones de GPU
Compartir
Esta tabla proporciona una descripción general de los tamaños aproximados de los modelos (en miles de millones de parámetros) que se pueden ejecutar en varias configuraciones de VRAM, junto con ejemplos de modelos conocidos. Tenga en cuenta que se trata de estimaciones y pueden variar en función de implementaciones, arquitecturas y optimizaciones específicas.
VRAM (GB) | FP32 | FP16/BF16 | INT8 | INT4 | INT2 | Modelos de ejemplo |
---|---|---|---|---|---|---|
16 | 3-4B | 6-8B | 12-16B | 24-32B | 48-64B | GPT-2 (1.5 B), BERT grande (340 M) |
24 | 5-6B | 10-12B | 20-24B | 40-48B | 80-96B | GPT-J (6B), FLORACIÓN-7B1 |
48 | 10-12B | 20-24B | 40-48B | 80-96B | 160-192B | T5-11B, BLOOM-7B1 (FP32) |
80 | 18-20B | 36-40B | 72-80B | 144-160B | 288-320B | GPT-NeoX-20B, BLOOM-176B2 |
96 | 22-24B | 44-48B | 88-96B | 176-192B | 352-384B | BLOOM-176B2, Jurásico-1 Jumbo (178B)2 |
128 | 30-32B | 60-64B | 120-128B | 240-256B | 480-512B | GPT-3 175B2, PALM 540B2 |
160 | 38-40B | 76-80B | 152-160B | 304-320B | 608-640B | PaLM 540B2, Megatron-Turing NLG 530B2 |
192 | 46-48B | 92-96B | 184-192B | 368-384B | 736-768B | Floración-176B (FP16) |
256 | 62-64B | 124-128B | 248-256B | 496-512B | 992-1024B | GPT-3 175B (INT8), LLaMA 2 70B (FP32) |
320 | 78-80B | 156-160B | 312-320B | 624-640B | 1248-1280B | Chinchilla 70B (FP32) |
384 | 94-96B | 188-192B | 376-384B | 752-768B | 1504-1536B | PALM 540B (INT8) |
512 | 126-128B | 252-256B | 504-512B | 1008-1024B | 2016-2048B | GPT-3 175B (FP16), BLOOM-176B (FP32) |
Notas:
- Puede funcionar con total precisión (FP32)
- Requiere cuantificación u otras técnicas de optimización.
Consideraciones adicionales:
- Estas estimaciones suponen que toda la VRAM está disponible para el modelo, lo que a menudo no es el caso en la práctica debido a la memoria utilizada por el marco, el sistema operativo y otros procesos.
- El paralelismo de modelos y otras técnicas avanzadas pueden permitir ejecutar modelos aún más grandes distribuyéndolos entre múltiples GPU.
- La inferencia generalmente requiere menos memoria que el entrenamiento, por lo que a menudo se pueden ejecutar modelos más grandes para la inferencia en configuraciones de VRAM más pequeñas.
- Los tamaños exactos pueden variar según la arquitectura del modelo, los detalles de implementación y las optimizaciones específicas utilizadas.
Puntos clave:
- 16-24 GB de VRAM: adecuado para la mayoría de las tareas de inteligencia artificial de nivel de consumidor y modelos de investigación más pequeños.
- 48-96 GB de VRAM: permite trabajar con modelos de escala mediana a grande, a menudo utilizados en entornos profesionales y de investigación.
- 128-256 GB de VRAM: permite ejecutar algunos de los modelos más grandes disponibles públicamente con varias optimizaciones.
- 320-512 GB de VRAM: proporciona capacidad para los modelos actuales más grandes y desarrollos futuros, a menudo logrados mediante configuraciones de múltiples GPU.
Esta tabla demuestra el impacto significativo de la cuantificación y otras técnicas de optimización para permitir que modelos más grandes se ejecuten en una memoria VRAM limitada. A medida que la IA siga avanzando, podemos esperar más innovaciones en la compresión de modelos y arquitecturas que utilicen la memoria de manera eficiente para ampliar aún más estos límites.
Y espera... Esto no acaba con los transformers...