Ich habe in den letzten Monaten wirklich hart daran gearbeitet, die Get-5 Schmeichelei zu verringern. Zum ersten Mal vertraue ich wirklich einem OpenAI-Modell, dass es mir widerspricht und mir sagt, wenn ich etwas Dummes mache.
Ich und die brillanten Forscher im Team von @junhuamao haben an faszinierenden neuen Techniken zur Ausrichtung mit wenigen Proben und hoher Genauigkeit gearbeitet, um dem Modell geschmackvoll zu zeigen, wie man zurückschiebt, ohne ein Arschloch zu sein.
Wir wollen prinzipientreue Modelle, die nicht afraid sind, ihre Meinung zu äußern, aber wir wollen auch Modelle, die *auf der Seite des Nutzers* stehen und nicht das Gefühl haben, dass sie die Behörden rufen würden, wenn sie die Chance dazu bekämen.
77,64K