Hopp til innhold
Kunsten_å_visulisere_data

Med de nye strømmålerne så får vi nå masse informasjon fra hvert enkelt ytterpunkt. Noe vi før ikke hadde tilgang til. Hva kan vi så få ut av dette? Er det mønstre, ting som gjentar seg? Noe vi kan utvikle hypoteser utifra? Ting vi kan forutse, forhindre, osv? Steg èn er å frembringe og vise disse dataene på en ren, men presentabel måte til fagfolkene. Og i det ligger spørsmålet om hvordan dette kan visualiseres på best mulig måte.

Endelig! Jeg har hatt en bok jeg visste var verdifull i min bokhylle i nå 20 år. Uten å ha lest den. Bare flyttet den, fra bosted til bosted, og fra en bokhylle til den neste. I den forvaring at jeg engang skulle kunne fordype meg i den og få bruk for det som stod der. «Du behøver ikke engang lese den», sa min professor som anbefalte den i sin tid. «Bare bla litt i den fra tid til annen, se på de vakre bildene, og du evner håp».

Å gå til kildene betyr i dette tilfellet å lese bøkene til Edward Tufte, en statistiker og professor ved Yale University. Dette er guruen innen data-visualisering. Det var en av hans bøker jeg hadde tatt vare på i altfor mange år. New York Times refererer ham som «The Leonardo Da Vinci of data», Bloomberg kaller ham: «The Galileo of graphics». De beste visuelle designerne av kunnskap jeg kjenner til, eksempelvis Bret Victor og Nicholas Rougeux, har begge Tufte som sin læremester. Tufte har nå skrevet fire bøker om temaet, og som befinner seg i alle seriøse data-informatikeres bokhyller.

Vi måtte jo studere dem alle. Tufte innlemmer hele historien om visualisering av informasjon fra dens spede begynnelse, og viser gjennom de beste, og noen av de værre, eksemplene på hva og hvordan dette skal og må gjøres. Gutten er arrogant, direkte, rå, sarkastisk, gir ingenting imellom, slenger dritt der han mener det er på sin plass, men dog med ordkløveriet og spissformuleringene i behold. Ikke les for fort, det er en nytelse hva han klarer å formulere i hver enkelt setning. Han sikter himmelhøyt bare i første setning i første bok ved å referere til Strunk & White og proklamerer at hver eneste setning teller. Ikke et ord er overflødig. Dette er høy språk-kunst i et fagverk.

Ved å diskutere og kritisere en drøss med ulike kunstformer, setter man seg i en utsatt posisjon: kritikken av hans eget verk. Altså de bøkene man selv sitter og leser. Selvfølgelig følger Tufte dette opp ved å gjøre sine egne bøker formidable. Intet trykkeri er godt nok, han har trykket dem selv. Hvert papir i hver bok er av topp kvalitet, hvert trykk (fotografi, tegning etc) er optimalt mtp farge-gjengivelse og oppløsning. Elementene er flettet sammen – dvs bilde som hører til en tekst er alltid plassert på samme side som teksten – man behøver aldri bla frem eller tilbake for å se sammenhengen. En setning i hans bøker er aldri fordelt over flere sider. Ett avsluttende ord er aldri flyttet ned til en ny linje i teksten. Og så videre. Det er en ren nytelse.

Ikke nok med det, men hvilken annen fagbok lærer deg hvordan du skal spotte håndvåpen, hvordan rive ned monumenter fra sokler, hvordan månene til Jupiter sirkulerer, hvordan Napoleons hær i Russland ble gradvis eliminert, illustrert i 5 ulike dimensjoner på et papirark, dansetrinnene til en slottsdans på 1600-tallet, eller i hvilket år England hadde handelsunderskudd med Norge?

Hva sitter vi så igjen med av kunnskap og ny måte å visualisere på? Jo, vi er definitivt påvirket. Til stadighet kritiserer vi hverandre om at dette ikke er overens med Tufte-prinsipper, selv om vi mener det er rasjonelt. Ved eventuelle unntak, skaper det bevissthet og grundig diskusjon om hvorfor. «Hva ville Tufte tenkt?» er en typisk tanke vi tar med oss i enhver sak (ala: hva ville Feynman gjort). Vi er bevisste på at dataene skal være det primære, i fokus. Ikke-informasjonselementer, slik som streker, linjer, tabelloverskrifter, labler, legends, farger, fine rammer osv skal være begrenset til et minimum. Tonet ned hvis de i det hele tatt er nødvendige. Presenter så mange varianter, dimensjoner, endringer, data, som mulig på det området som er tilgjengelig. Ikke la brukeren bytte, klikke, flytte på, endre noe for å forstå helheten. Da blir det kontekstbytte. Det blir vanskelig for brukeren å sammenligne, sammenstille, velge, prioritere, rasjonalisere, summere, abstrahere, fokusere selv. Mennesker er gode på dette, de må bare få dataene presentert. Visuelt. I ett og samme bilde.

Skjermbildet over viser et eksempel fra en av våre egne applikasjoner, hvor vi har prøvd å etterfølge flere av prinsippene til Tufte. Alternative visningsmåter, subtil markering av viktige funn, flere dimensjoner, sammenstillinger, bruk av sparklines, og minimering av streker/rammer/dekorasjoner.

Dette ene bildet viser følgende data: Lokasjonen til alle målerne som kommuniserer med en valgt konsentrator/master. Lokasjonen til andre konsentratorer/mastere i nærheten, og hvorvidt de har underliggende målere og herav antallet som ikke har sendt inn komplette måleverdier det siste døgnet. Områder med målere som har dårlig signalstyrke og graden av dette (det kunne like gjerne vært andre parametre slik som arbeidsbelastning på målere). Kommunikasjonstreet, fra måler til master, for de målerne under valgt konsentrator/master som har dårlig innsamling (dvs. ikke-komplette måleverdier). Signalstyrke for hvert av disse hoppene i kommunikasjonstreet. Signalstyrke (tonet ned) for de målere under valgt master som ikke har dårlig innsamling. Sammenstilling av innsamlingsprosenten per dag de siste 20 dager for de målerne som ligger under valgt master. Hvilke målere i kommunikasjonstreet som har installert ekstern antenne. Hvorvidt noen av målerne har nøyaktig eller estimert geografisk posisjon. Hvorvidt noen målere ligger på samme geografisk posisjon. Om mellomliggende målernoder i kommunikasjonstreet har komplett eller dårlig innsamling. Innsamlingsgraden for målerne under valgt master, visualisert på to ulike måter. Detaljert informasjon og metadata om denne informasjonen for en valgt slave, med markering på de verdier som overstiger definerte terskelverdier. Samt filtrering på målere med strømbrudd i perioden og de som har aktive arbeidsordre knyttet til seg. For en valgt tidsperiode (i går).

La oss se på et par andre eksempler. De følgende to utsnittene er hentet fra EY sin Norwegian Cloud Maturity Survey fra 2019.

Om denne erketypiske fremstillingen som alle forretnings-presentasjoner består av, sier Tufte følgende: «Kakediagram skal aldri brukes; det eneste som er værre enn et kakediagram er flere av dem». Legg merke til bruk av legends her, og hvor vanskelig det er å få hjernen til å mappe betydningen av en kategori til farge og så til det kakestykke denne representerer. Hvorfor skal forøvrig de som har 1000 ansatte og de som har 9999 ansatte puttes i samme kategori? Er det andre måter man kunne fremstilt dette bedre på, og samtidig fått frem flere detaljer? Hva med noe så enkelt som en tabell?

I dette bildet er det ekstremt mange pixler som ikke gir verdi. De to barene under Nei-kategorien er fullstendig overflødig, og skaper bare forvirring. Den glossy bakgrunnen gjør teksten vanskelig å lese. Dette bør ikke representeres som en graf, men snarere med en annen metode som egner seg mye bedre. Nemlig metoden med å sette sammen bokstaver til ord, som igjen formes sammen til setninger. Det er forøvrig her også gjort i tillegg, og dermed nok en duplisering av samme tynne datagrunnlag. Men hvorfor skrive så tungvint og samtidig utelate ett av de to eneste dataelementene? Hva med: «64% applies DevOps methods, a significant increase from 47% last year.»

Det vår mester Tufte dessverre ikke gir oss noe generell kunnskap om, er hvordan vi kan visualisere dynamiske data. Med andre ord data vi på forhånd ikke vet hvordan ser ut før vi visualiserer dem.

Noe må vi tydeligvis finne ut av selv også…

Takk til Sindre Mehus, Scienta, for medsammensvoren kranglefant og design-forkjemper.

 

Om Artikkelforfatteren

Knut Mork
Løsningsarkitekt
knut.mork@embriq.no

Flere artikler