modelo de generación de aprendizaje profundo utilizado para ajustar los modelos de texto a imagen existentes