reVIZja #2

Czwartkowa konferencja OpenAI miała na celu przedstawienie najnowszego modelu GPT-5. Bardzo dużo uwagi (przynajmniej w mojej bańce) poświęcono jednak nie na same możliwości nowego modelu językowego, a na absurdalne i wprowadzające w błąd wykresy użyte podczas prezentacji.

O ile etykiety można uznać za kwestię estetyczną, czy funkcjonalną, to wysokość kolumn jest poważnym błędem, żeby nie napisać manipulacją.
Kolumna z wartościami dla GPT-5 jest nieproporcjonalnie wyższa od pozostałych kolumn. Dodatkowo została pokazana w sposób sugerujący, że model w trybie without thinking osiąga lepsze rezultaty od modelu OpenAI o3.

Poniżej moja propozycja tego wykresu. Teraz widać, że wynik modelu OpenAI o3 jest bardziej zbliżony do GPT-5 oraz że model GPT-4o („niemyślący”) osiąga znacząco gorsze wyniki od zestawionych LLM-ów.

Należy dodać, że ostatecznie OpenAI dostrzegło swój błąd i we wpisie na blogu dotyczącym szczegółów modelu znajduje się już poprawiony wykres.

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *