Toma hiperrealista del molde de silicio con mayor profundidad y un tono púrpura vibrante.

Requisitos de VRAM del modelo de IA en distintas configuraciones de GPU

Requisitos de VRAM del modelo de IA en distintas configuraciones de GPU

Esta tabla proporciona una descripción general de los tamaños aproximados de los modelos (en miles de millones de parámetros) que se pueden ejecutar en varias configuraciones de VRAM, junto con ejemplos de modelos conocidos. Tenga en cuenta que se trata de estimaciones y pueden variar en función de implementaciones, arquitecturas y optimizaciones específicas.

VRAM (GB) FP32 FP16/BF16 INT8 INT4 INT2 Modelos de ejemplo
16 3-4B 6-8B 12-16B 24-32B 48-64B GPT-2 (1.5 B), BERT grande (340 M)
24 5-6B 10-12B 20-24B 40-48B 80-96B GPT-J (6B), FLORACIÓN-7B1
48 10-12B 20-24B 40-48B 80-96B 160-192B T5-11B, BLOOM-7B1 (FP32)
80 18-20B 36-40B 72-80B 144-160B 288-320B GPT-NeoX-20B, BLOOM-176B2
96 22-24B 44-48B 88-96B 176-192B 352-384B BLOOM-176B2, Jurásico-1 Jumbo (178B)2
128 30-32B 60-64B 120-128B 240-256B 480-512B GPT-3 175B2, PALM 540B2
160 38-40B 76-80B 152-160B 304-320B 608-640B PaLM 540B2, Megatron-Turing NLG 530B2
192 46-48B 92-96B 184-192B 368-384B 736-768B Floración-176B (FP16)
256 62-64B 124-128B 248-256B 496-512B 992-1024B GPT-3 175B (INT8), LLaMA 2 70B (FP32)
320 78-80B 156-160B 312-320B 624-640B 1248-1280B Chinchilla 70B (FP32)
384 94-96B 188-192B 376-384B 752-768B 1504-1536B PALM 540B (INT8)
512 126-128B 252-256B 504-512B 1008-1024B 2016-2048B GPT-3 175B (FP16), BLOOM-176B (FP32)

Notas:

  1. Puede funcionar con total precisión (FP32)
  2. Requiere cuantificación u otras técnicas de optimización.

Consideraciones adicionales:

  • Estas estimaciones suponen que toda la VRAM está disponible para el modelo, lo que a menudo no es el caso en la práctica debido a la memoria utilizada por el marco, el sistema operativo y otros procesos.
  • El paralelismo de modelos y otras técnicas avanzadas pueden permitir ejecutar modelos aún más grandes distribuyéndolos entre múltiples GPU.
  • La inferencia generalmente requiere menos memoria que el entrenamiento, por lo que a menudo se pueden ejecutar modelos más grandes para la inferencia en configuraciones de VRAM más pequeñas.
  • Los tamaños exactos pueden variar según la arquitectura del modelo, los detalles de implementación y las optimizaciones específicas utilizadas.

Puntos clave:

  1. 16-24 GB de VRAM: adecuado para la mayoría de las tareas de inteligencia artificial de nivel de consumidor y modelos de investigación más pequeños.
  2. 48-96 GB de VRAM: permite trabajar con modelos de escala mediana a grande, a menudo utilizados en entornos profesionales y de investigación.
  3. 128-256 GB de VRAM: permite ejecutar algunos de los modelos más grandes disponibles públicamente con varias optimizaciones.
  4. 320-512 GB de VRAM: proporciona capacidad para los modelos actuales más grandes y desarrollos futuros, a menudo logrados mediante configuraciones de múltiples GPU.

Esta tabla demuestra el impacto significativo de la cuantificación y otras técnicas de optimización para permitir que modelos más grandes se ejecuten en una memoria VRAM limitada. A medida que la IA siga avanzando, podemos esperar más innovaciones en la compresión de modelos y arquitecturas que utilicen la memoria de manera eficiente para ampliar aún más estos límites.

Y espera... Esto no acaba con los transformers...

Volver al blog