Firma badawcza OGB Pro postanowiła opublikować wykres, o którym ciężko powiedzieć coś pozytywnego. Jest to wykres kołowy, ale zróżnicowane wielkości wycinków są raczej charakterystyczne dla wykresów „diagramu róży” albo po angielsku polar area diagram. W tym jednak przypadku użycie diagramu róży nie ma żadnego zastosowania, więc zakładam, że jest to po prostu efekt fantazji autora, bądź jakaś próba uzyskania efektu artystycznego.
Ktoś mógłby stwierdzić, że nieszablonowe podejście jest ciekawe, a mój komentarz to czepialstwo i przecież wszystko jest ok, ale niestety wybór autora wizualizacji należy ocenić negatywnie. Problematyczne są dwa elementy.
1. Wielkość wycinków ma znaczenie
W przypadku wykresu kołowego, ale też generalnie w przypadku wizualizacji danych, chcemy mieć możliwość prostego porównania, czy ocenienia danych, bez konieczności zagłębiania się w surowe dane liczbowe. W wykresach kołowych oceniamy zazwyczaj trzy rzeczy: kąt dla poszczególnych wycinków, długość zewnętrznego łuku i pole powierzchni. Na omawianym przykładzie zgadzają się wyłącznie kąty.
Ocena zła, czyli 50,6% wskazań respondentów odpowiada za ok. 70% powierzchni całego wykresu, niemal trzy razy więcej niż ocena dobra (28,2% wskazań).
2. Co ma ten wykres pokazać
Drugie istotne zastrzeżenie, które mam do tego wykresu to określenie celu tej wizualizacji. Mam wrażenie, że autor chciał zmieścić dwa tematy na jednym wykresie i stąd taki efekt.
Pierwsza analiza dotyczy udziału procentowego pozytywnych i negatywnych ocen. Można ją pokazać w prosty sposób – na wykresie kolumnowym.
Drugi temat dotyczy zmiany postrzegania w porównaniu do poprzedniego badania. Można pokazać to na przykład w ten sposób, za pomocą łączonego wykresu punktowego:
Czy firmy badawcze będą przykładały większą wagę do jakości prezentacji danych? Zobaczymy w kolejnych reVIZjach 🙂
Bardzo dużą dyskusję wywołał artykuł Ignacego Morawskiego opisujący projekt Strategii Rozwoju Polski do 2035 r., a zwłaszcza wykresy zawierające zestawienie estymowanych przez Ministerstwo Funduszy i Polityki Regionalnej wartości na tle realnych liczb, zaobserwowanych w poprzednich latach.
Jest wreszcie Strategia Rozwoju Polski, a w niej 56 wskaźników opisujących nasz kraj za 10 lat. Pytanie, czy w ogóle to zyska jakąkolwiek wagę polityczną. https://t.co/kW8IBwrJ7dpic.twitter.com/WFwg3ptcRm
Postanowiłem przyjrzeć się bliżej projektowi Strategii i omówić jak prezentowane są w nim dane.
1. Kolory
Autorzy Strategii użyli kolorów w dość świadomy sposób. Każdy z celów w części wdrożeniowej otrzymał dedykowaną paletę barw, widoczną zarówno w oznaczeniu stron, jak i w stworzonych wizualizacjach i tabelach. Przy czym paleta dla celu pierwszego jest również używana w częściach diagnostycznej i kierunkowej.
Mam wrażenie, że to właśnie początek Strategii (część diagnostyczna, kierunkowa i pierwszy cel) został najlepiej przepracowany pod względem graficznym. Wizualizacje są estetyczne, a wybór kolorów zdecydowanie ułatwia czytelność. Zabrakło być może kropki nad i, czyli konsekwencji w użyciu tych kolorów. Na przykład zastosowania jednego koloru do Polski (i tylko do Polski) dla wszystkich tych rozdziałów. Pozwoliłoby to na szybszą interpretację wykresów, bez konieczności odwoływania się do legendy.
Cel 2 wypada pod tym względem zdecydowanie gorzej. Użycie zielonych kolorów zawsze obarczone jest pewnym ryzykiem interpretacyjnym, chociaż zapewne intencją było tutaj powiązanie tego celu ze środowiskiem i klimatem. Jeszcze jeden problem, który tutaj widzę, to umiarkowana czytelność wykresów dla osób z daltonizmem, a konkretnie protanopią. Dwa pierwsze kolory są bardzo podobne dla osób z ograniczoną liczbą czerwonych czopków.
Cel 3 nie ma zbyt wielu wizualizacji, ale te które są wyglądają w porządku.
2. Jakość wizualizacji
Trzeba przyznać, że wizualizacje w Strategii są generalnie wysokiej jakości. Dobrze wspierają omawianą treść i dodają kontekst do poruszanych zagadnień.
Jedna rzecz, która mogłaby zostać poprawiona, to zmiana wykresów kolumnowych na słupkowe. Obecnie w wielu przypadkach etykiety na osi x są ustawione pod kątem 45, czy 90 stopni, co nie ma praktycznego uzasadnienia.
W Strategii znalazło się jednak kilka wizualizacji, które oceniłbym jako mniej udane. Przykładem może być Wykres 43:
Jest to pewnego rodzaju wariacja dla wykresu kaskadowego (ang. waterfall chart), w którym dodano na samym końcu dodatkową kategorię, nie uwzględnią wcześniej w wartościach pośrednich. Odnoszę wrażenie, że zmarnowano tutaj potencjał na pokazanie planowanej redukcji paliw kopanych przy jednoczesnym wzroście źródeł alternatywnych, a taki plan wynika z treści. Poniżej przykład jak mogło to wyglądać na fikcyjnych danych.
To o co tyle szumu?
Najwięcej kontrowersji wzbudził wykres dot. współczynnika dzietności stworzony już nie przez Ministerstwo, a Puls Biznesu. Mamy tutaj do czynienia z częstą sytuacją skrócenia osi. Zgodnie z teorią na wykresach liniowych można to zrobić, jednak praktyka pokazuje, że nie jest to taka prosta i oczywista sprawa.
Autorzy Pulsu Biznesu postanowili ponadto ekstrapolować wskaźnik liniowo w oparciu o dwa punkty, czyli 1.099 w 2024 r. oraz prognozowane 1.45 dla roku 2035. Łącząc to wszystko ze stosunkowo niewielkim (wąskim) wykresem można odnieść wrażenie, że szacowane wartości są wyjątkowo optymistyczne i niemożliwe do realizacji.
Te same dane o dzietności można pokazać też w zupełnie inny sposób. Uwzględniając szeroki horyzont danych, prognoza nie wygląda już tak absurdalnie. Usunięcie ekstrapolowanych danych również przyczynia się do łagodniejszego odbioru tego wykresu. Zwłaszcza w kwestiach tak delikatnych jak dzietność, trendy pokazane liniowo mogą narzucić pewną narrację. Poniżej moja propozycja, która mam nadzieję prezentuje te dane w bardziej neutralny sposób.
Podsumowując
Projekt Strategii Rozwoju Polski do roku 2035 jest ciekawym i przyjemnym w lekturze dokumentem z przeważnie poprawnymi wizualizacjami. Oczywiście można poprawić niektóre niedociągnięcia, ale co do zasady ciężko zarzucić tutaj manipulację, czy koloryzowanie danych. Ocenę tego, czy przyjęte cele są realistyczne, pozostawiam ekspertom z poszczególnych dziedzin.
Prezentacja wskaźników przez Puls Biznesu jest jednak dość kontrowersyjna – liniowo ekstrapolowane dane mogą wpływać na odbiór tych danych, wszak w prawdziwym życiu rzadko mamy do czynienia ze zjawiskami, które od linijki rosną, czy spadają. Skrócenie osi i wielkość wykresów również nie pomagają.
Sztuka danych, czyli data art to odłam sztuki, który traktuje dane jako źródło inspiracji lub surowiec artystyczny. Dzięki artystycznej, wizualnie atrakcyjnej formie, dzieła mogą angażować odbiorcę na poziomie emocjonalnym i estetycznym, co może prowadzić do silniejszych reakcji niż w przypadku tradycyjnych form wizualizacji danych.
W dzisiejszej reVIZji omówię pracę Mandy Spaltman (Jej strona) dla The European Correspondent, będącą podsumowaniem rankingu Bounce Underground System (Tu link), czyli zestawienia oceniającego systemy metra w Europie.
Autorka przedstawiła ranking w sposób przypominający rozkład przystanków metra na mapie. Patrząc od góry, zielona linia metra pokazuje nam kolejne miasta w rankingu. Wielkość 'stacji’ mówi o liczbie pasażerów, natomiast kolor stacji o długości systemu metra w danym mieście. Dyskretne adnotacje nie rozpraszają uwagi i dodają dodatkowy kontekst. Podsumowując, wszystko się tutaj zgadza 🙂
Niedziela, czyli czas na reVIZję – cotygodniowy cykl, w którym na tapet biorę wizualizację z bieżącego tygodnia, która przykuła z jakiegoś powodu moją uwagę. W tym tygodniu była to grafika Głównego Urzędu Statystycznego „Ekonomiczne aspekty ochrony środowiska”:
W 2024 r. nakłady na ochronę środowiska i gospodarkę wodną stanowiły odpowiednio 0,42% i 0,10% #PKB.
W pierwszej chwili ciężko było mi zrozumieć co przedstawia ta grafika. Dopiero po jakimś czasie zrozumiałem, że są to trzy oddzielne wykresy.
Na tym jednak nie koniec zamieszania. Po lewej stronie (wykres 1) wartości dodatnie rosną w lewo, po prawej stronie (wykres 3) – zgodnie z intuicją – w prawo. Wykres 1 ma wartości uporządkowane malejąco. Wykres 3 powtarza tę samą kolejność kategorii, jednak nie są one uporządkowane pod względem wartości.
Wykres 2 również może być problematyczny w odbiorze – co to właściwie jest za wizualizacja? Już na pierwszy rzut oka wydaje się znacznie masywniejszy, większy od powierzchni słupków na wykresach 1 i 3. Szybki test linijką wskazuje, że w istocie nie jest to trzeci wykres słupkowy, a mapa drzewa (ang. treemap). Treemap to wykres pokazujący udział poszczególnych części, przedstawionych jako prostokąty, w całości jakiegoś zjawiska. Zazwyczaj jest on jednak używany aby pokazać hierarchię, grupując elementy z tej samej kategorii. W omawianym przypadku jest to decyzja natury estetycznej, a nie funkcjonalnej.
reVIZja
Jak zatem poprawić czytelność tej grafiki? Zacząłbym od uproszczenia i dwa wykresy słupkowe zamienił na jeden kolumnowy. Uporządkuje to kategorie, ułatwi porównanie i rozwiąże problem wykresu 1 z wartościami rosnącymi w lewo.
Moje rozwiązanie problemu z mapą drzewa niektórym wydawać się może kontrowersyjne, ale osobiście uważam, że wykres kołowy rozwiązuje wszystkie wymienione wcześniej problemy. Wycinki pokazują wyraźnie stosunek nakładów na ochronę środowiska do nakładów na gospodarkę wodną i tak naprawdę nawet bez pokazywania wartości, widoczny jest stosunek (mniej więcej) 5:1 między tymi kategoriami. No i najważniejsze – wykres kołowy jest powszechnie rozpoznawalnym i znanym rozwiązaniem. Nikt nie będzie musiał się głowić nad interpretacją.
Postanowiłem go opisać głównie dlatego, że jest to niezwykle rzadko spotykany typ wizualizacji – lustrzany wykres Sankeya. [Tutaj pojawi się link do dłuższego artykułu o wykresach Sankeya]. To, co go charakteryzuje, to zestawienie ze sobą dwóch węzłów głównych w centrum – zabieg ten pozwala na bezpośrednie porównanie całkowitych wartości.
Omawiany wykres jest bardzo dobrze wykonany: 1. Jakościowy tytuł, 2. Zastosowanie gradientu kolorów, który pozwala na szybsze wartościowanie, 3. Kategoria „Pozostałe kraje” jest w stonowanej kolorystyce – nie odwraca uwagi od głównego przekazu, 4. Wykres Sankeya to atrakcyjna, przykuwająca uwagę wizualizacja.
Mam jednak wrażenie, że wykorzystanie tak rzadko stosowanego typu wykresu niesie ryzyko błędnej interpretacji danych. Czy każdy czytelnik od razu będzie wiedział, że na wykresie są prezentowane dwa zjawiska (import i eksport)? Czy to, że import znajduje się po lewej stronie wykresu nie spowoduje odebranie tego jako zjawiska negatywnego?
Dlatego poniżej prezentuję moją propozycję – nudniejszą, ale też pewniejszą jeżeli chodzi o interpretację i łatwość odczytania danych. Warto pamiętać, żeby rodzaj wykresu dostosować do odbiorcy.
W tym tygodniu nie udało mi się znaleźć interesujących przykładów wizualizacji, które można poprawić, ale to nie oznacza, że nie będzie reVIZji! Dziś omówię przykład z drugiego bieguna (😉) i będzie to artykuł z australijskiego ABC News autorstwa Jo Lauder, w którym za wizualizacje odpowiadał Alex Lim. Link do artykułu tutaj.
Autorzy artykułu poruszają w nim kwestie rosnącego znaczenia zielonej energii w chińskiej ekonomii, co ma spore znaczenie dla gospodarki Australii, a w szczególności jej potężnego sektora paliw kopanych. Na poparcie swojej tezy prezentują oni liczne wykresy i robią to naprawdę dobrze!
Szczególną uwagę chciałbym zwrócić na konsekwentne użycie koloru na wszystkich grafikach w artykule – główny bohater artykułu, czyli Chiny są oznaczone na czerwono, Australia na fioletowo, a USA na szarobrązowo. Zabieg ten ułatwia przyswajanie informacji i ogranicza konieczność sprawdzania legendy. Państwa, które są pokazane jako punkt odniesienia, ale nie będące głównym tematem artykułu (Indie, UE) są oznaczone na neutralny, szary kolor.
Na wykresie skumulowanej emisji powyżej zastosowano ciekawy zabieg, polegający na umieszczeniu reszty świata na samym dole wykresu. Dzięki temu możemy skupić się na opowiadanej historii, a jednocześnie nie tracimy szerokiej perspektywy, która pozwala nam umieścić emisje poszczególnych państw w kontekście globalnym.
Bardzo interesujące rozwiązanie zostało zastosowane na wykresie pokazującym historyczne poziomy emisji CO2. Dzięki dyskretnym adnotacjom łatwiej jest zrozumieć skąd brały się spadki emisji w przeszłość i skonfrontować to z widocznym obecnie wypłaszczeniem wykresu.
Warto jeszcze zwrócić uwagę na wykres pojemności energetycznej. Zastosowanie kreskowania (i opisu) dla lat 2025 i 2026 od razu wskazuje, że mamy do czynienia z projekcją, a nie faktycznymi danymi.
Czwartkowa konferencja OpenAI miała na celu przedstawienie najnowszego modelu GPT-5. Bardzo dużo uwagi (przynajmniej w mojej bańce) poświęcono jednak nie na same możliwości nowego modelu językowego, a na absurdalne i wprowadzające w błąd wykresy użyte podczas prezentacji.
O ile etykiety można uznać za kwestię estetyczną, czy funkcjonalną, to wysokość kolumn jest poważnym błędem, żeby nie napisać manipulacją. Kolumna z wartościami dla GPT-5 jest nieproporcjonalnie wyższa od pozostałych kolumn. Dodatkowo została pokazana w sposób sugerujący, że model w trybie without thinking osiąga lepsze rezultaty od modelu OpenAI o3.
Poniżej moja propozycja tego wykresu. Teraz widać, że wynik modelu OpenAI o3 jest bardziej zbliżony do GPT-5 oraz że model GPT-4o („niemyślący”) osiąga znacząco gorsze wyniki od zestawionych LLM-ów.
Należy dodać, że ostatecznie OpenAI dostrzegło swój błąd i we wpisie na blogu dotyczącym szczegółów modelu znajduje się już poprawiony wykres.
reVIZja to seria w której omawiam błędy i niefortunne rozwiązania w zakresie wizualizacji danych, które zostały opublikowane w ostatnim czasie.
Diagnoza
W pierwszym odcinku biorę na tapet artykuł z gazeta.pl dotyczący strat i zniszczeń Warszawy w czasie II WŚ – Link. W artykule zaprezentowano kilka ciekawych wizualizacji, jednak negatywnie na ich tle wyróżnia się ta dotycząca strat materialnych.
Większość problemów tej wizualizacji wynika z kontrowersyjnej decyzji użycia wykresu pierścieniowego (donut chart). Podobnie jak wykres kołowy, najlepiej sprawdza się on w przypadku pokazania udziałów konkretnej wartości w całości. Donut chart źle radzi sobie również w przypadku licznych kategorii – ciężko porównać ze sobą aż osiem wycinków. Konsekwencją zbyt dużej liczby kategorii są nieczytelne etykiety. Dodajmy jeszcze do tego nieuporządkowane malejąco wartości i mamy przepis na mocno konfundującą grafikę.
Jak naprawić te błędy? Proponuję dwie ścieżki.
Zalecenia
Najprostszym sposobem wydaje się zastosowanie wykresu słupkowego. Zalety takiego rozwiązania: + Łatwe porównanie poszczególnych kategorii + Czytelne etykiety + Prostota Obiektywnie rozwiązanie to nie ma wad, natomiast subiektywnie dla niektórych osób wykres pierścieniowy może wydawać się ciekawszy wizualnie. Od siebie dodałem jeszcze podtytuł, który dostarcza dodatkowy punkt odniesienia i pomaga w interpretacji.
Alternatywna ścieżka leczenia
Jeżeli autorom bardzo mocno zależy na pokazaniu danych za pomocą wykresu pierścieniowego, to na upartego można to zrobić. Po pierwsze, należy pokazać udziały poszczególnych kategorii. Osiągamy to dzieląc wartość kategorii z sumą wszystkich wartości. Po drugie warto scalić mniejsze kategorie. Znacząco poprawi się czytelność wykresu, jak również ułatwi to porównywanie kategorii. Po trzecie należy uporządkować dane w kolejności malejącej, zaczynając od „godziny 12:00” i poruszając się zgodnie ze wskazówkami zegara.