Der einzige LLM-Benchmark, der zählt, ist, wie gut er Restaurantempfehlungen ausgibt.
1,07K