Joitakin huomautuksia gpt-reaaliaikaisesta julkaisusta, joka korvaa ketjutetun STT→LLM→TTS:n yhdellä puhe sisään/ulos -mallilla (pienempi latenssi, rikkaampi vivahde) - valtava imo 🔥 Vertailuarvoista (vs. GPT4o-reaaliaika): > saa 82.8 % vs. 65.6 % BigBenchistä (päättely) > 30,5 % vs. 20,6 % MultiChallenge Audiosta (ohje seuraava) > 66,5 % vs. 49,7 % ComplexFuncBenchissä (funktiokutsu) Etuja ovat parannettu prosodia, äänenhallinta, ei-verbaalinen ja aakkosnumeerinen tarkkuus sekä monikielinen vaihto Reaaliaikainen API nyt GA SIP-puhelimella, kuvasyötöllä ja MCP-työkalun integroinnilla kaikki tämä 20 % alhaisemmalla API:lla - aika makeaa (vaikka mielestäni se on edelleen hieman liian kallista)
14,17K