有趣的是,99% 嘗試解釋 LLM 的人忘記了它們並不是生成下一個標記,而是生成整個詞彙空間的概率分佈,最終應用可以自由地從中抽樣。 你通常並不會看到最可能的標記。
Gergely Orosz
Gergely Orosz9月4日 21:46
有趣的是,99% 使用 LLM 的人都忘記了這些東西是如何工作的: 它們是先進的概率機器。它們根據輸入和訓練生成下一個最可能的標記(單詞)。 在底層,它是一個巨大的矩陣乘法,輸出效果驚人。
848.1K