"¿Por qué hablas así y ensucias la reputación de alguien sin razón?" "La destilación no se puede considerar un robo... ¡destilación! ... ¿Se puede considerar un robo hacer grandes modelos?" Luego siguieron algunas palabras difíciles de entender, como "soft label", "temperature scaling", "dark knowledge", que hicieron reír a todos en la sala, llenando el laboratorio de un ambiente alegre. Él le dijo al mostrador: "Dame dos A100 y un modelo teacher preentrenado." y pagó una gran suma de dinero — no, pagó una factura de computación de nueve mil dólares. La gente le preguntó: "¿De verdad has aprendido a usar Transformer?" Kong Yiji se sonrojó, las venas de su frente se marcaron, y argumentó: "Knowledge Distillation fue propuesto por Hinton... ¡¿qué saben ustedes?! ¡Esto es transferencia de conocimiento, es compresión, es... es estar sobre los hombros de gigantes!" El dueño dijo: "¿No será que el benchmark de tu pequeño modelo proviene de 'tomar prestado' del teacher?" Kong Yiji abrió los ojos y dijo: "¡Lo que yo aprendí fue la capacidad de generalización! La información de distribución en los logits, la transmisión del conocimiento oscuro, ¿acaso es algo que ustedes, que solo saben mirar la precisión top-1, pueden entender?" Luego se volvió hacia la multitud, su actitud se volvió más sincera, "Si no me creen, miren, mi student model tiene solo una décima parte de los parámetros del teacher, la velocidad de inferencia es ocho veces más rápida, y solo ha perdido dos puntos... ¡solo dos puntos!"