Acelera fácilmente tus LLMs hasta 3 veces⚡️mientras preservas más del 99.5% de la precisión del modelo 🎯
Con la cuantización posterior al entrenamiento del optimizador de modelos TensorRT, puedes cuantizar modelos de última generación a NVFP4, lo que reduce significativamente el uso de memoria y la sobrecarga de cálculo durante la inferencia, mientras
Ver originales