"Det må da være best å stole på øra?"
Helt klart. Og da mener jeg å stole på ørene fullt ut uten å "jukse" med å se på forsterkerfrontene eller utveksle blikk med selgeren. Hvis vi ønsker å finne ut hvor god lyd et produkt har så virker det innlysende at ørene er rett organ fra å sjekke det. Det som kanskje ikke er like innlysende er at mennesket er et utrolig dårlig måleinstrument. Vi har overlevd og utviklet oss på bakgrunn av å unnslippe sabeltanntigre og å høre kvinner i nød, ikke ved å analysere 0.5dB nivåvariasjon mellom høyre og venstre kanal. Hvis vi setter mennesket til å skille komponent A fra komponent B i en blindtest så kjenner jeg ikke til noen grener hvor vi kan slå måleutstyr innen "hifi-parametre" - stikk i strid med hva mange hifi-interesserte påstår om våre fantastiske sanser. Og i en slik test har vi jo faktisk fasiten - vi vet jo hvorvidt vi har byttet produkt eller ikke. Hvis lytteren sier at produkt A har bedre holografi enn produkt A så tar han enten feil eller bløffer. Når det kommer til å tolke, kjenne igjen og engasjeres av musikken er vi derimot uslåelige...
Et intervju med Floyd Toole
Hvorfor er det et slikt stort avvik mellom resultatet man får vha blindtester, målinger og teori på den ene siden, og "seende lytting" på den andresiden? Tihengerne av slik seende lytting vil ofte forklare dette med at vitenskapen ikke har kommet så langt, at det er "ett eller annet galt med blindtester, for vi ser jo at svaret er feil" etc.
Jeg er ikke enig i et slikt syn. Det er foretatt nøye, vitenskaplige tester av menneskets oppfattelse av smak, lukt, syn og hørsel. Man har sett på hvordan personer i en test oppgir preferanser, og hvordan
mennesket er grunnleggende "upålitelig", hvordan
det vi forventer skal skje påvirker det vi mener skjer, hvordan selv den tredje-personen som bare skal observere hva du rapporterer om forskjeller
underbevisst farger resultatet. Dette er momenter som har vært kjent og akseptert i vitenskaplige sammenheng i mange år, det er ikke noe spesielt kontroversielt ved det annet enn innen hifi hvor motstanden er stor. Jeg kan ikke komme på noen annen grunn til at man avviser noe så alment akseptert annet enn at man ikke liker resultatet som kommer ut. Og hva slags tilnærming til verden er det, hvis det er tomt på lønnskontoen i midten av måneden så knuser man kalkulatoren fordi det må være noe feil med den?
Å virkelig stole på øra
Dette leder til den såkalte
placebo-effekten som får enhver kabel-fantast til å se rødt. "Hva?? tror du meg ikke? Tror du at jeg ikke vet hva jeg hører selv?" Nei, avhengig av hva man legger i det å "høre" så tror jeg faktisk ikke alltid at man vet hva man hører selv. Selvsagt vet man hva man oppfatter, hvordan man føler seg etc. Men derifra til å konkludere at alle inntrykkene utelukkende kommerifra hørselen mener jeg er en feilslutning all den tid vitner i rettssaker og syke mennesker lar seg "lure" av sterk overbevisning til å hhv peke ut helt feil person i en line-up, eller å føle seg friskere av å ta sukker-piller . Hvorfor skulle vi være noe annerledes?
Når proffe vinsmakere som lever av (og for?) smaken sin erkjenner at de må benytte belysning som gjør at all vin ser lik ut, fjerne etiketter og alt som lar dem kjenne igjen produsenten for å greie å svare på det enkle spørsmålet: "er det noen forskjell, hvilken er best", hvorfor må ikke vi det samme? Spesielt når det finnes
godt utviklede metoder for dette?
Prisbom i blindtest av vin
"Prisbom i blindtest av vin
TRONDHEIM (VG) Både folkejury og vineksperter bommet med flere hundre kroner da de gjettet pris på vin.
...
- Ekspertene gjettet feil pris/prisklasse på åtte av ti viner. Folkejuryen tippet riktig pris/prisklasse på tre av ti viner.
- Hvitvinen Mersault til 458 kroner ble av ekspertene tippet til å koste maks 200 kroner. Folkejuryen holdt en knapp på 120 kroner.
Det var generelt store avvik mellom gjettet prisklasse, og hva vinene faktisk koster i Vinmonopolets hyller.
- De to ekspertene leverte gjennomgående treffsikre beskrivelser av smak og vinens utseende i testen. Ofte anga de riktig druesort, årgang og vindistrikt. Men de bommet sammenlagt på seks av ti land. Folkejuryen likte best de mestselgende vinene.
"
"Blindtester har alt for korte klipp"
Dette er en vanlig forekommende kritikk mot blindtester. Blindtester er designet for å få størst mulig sannsynlighet for positivt resultat, siden det motsatte har liten verdi. En av måtene å oppnå dette på er å ta hensyn til at mennesket har veldig kort "lyd-hukommelse". Det vil si at ved å skifte raskt mellom kuttene (10-15 sekunder) og ha kortest mulig avbrudd, så øker sannsynligheten for positiv deteksjon.
(referanse mangler)
Selvsagt er det mulig å øke denne klipplengden, noe man også har gjort i f.eks Løkkens test. Hvis korte klipp var forklaringen på avvik mellom seende og blind lytting så ville man forvente at blinde tester med lang klipplengde ville gi samme resultat som seende lytting, noe som de etter min mening generelt ikke gjør.
Det som er litt ironisk er at en av kritikkene mot blindtester er for _lang_ svitsjehastighet eller ventetid mellom strømkabel A og strømkabel B. Når man faktisk skal bruke dette utstyret etter å ha gjort et valg så er jo lyttetiden kanskje 2 år, mens svitsjetiden er tiden det tar å pakke ned det gamle anlegget og sette opp det nye.
Svakheter ved blindtester
Det er flere praktiske ulemper ved blindtester. Kravet om å kunne bytte raskt uten at lytteren vet hva han bytter fra og til er vanskelig med høyttalere siden plassering i rommet har såpass stor betydning. Dette gjør det også vanskelig å teste f.eks strømkabler mot hverandre.
Resulatet fra en ABX dobbelt blindtest kan bare brukes til å indikere at :
1. Dersom man hadde kastet terning så ville det aktuelle resultatet ha skjedd X % av gangene etter uendelig mange forsøk.
Alt annet ligger i tolkningen. Hvis svaret er at man ville fått samme resultat ved å kaste terning i 50% av tilfellene så er testen ikke konklusiv, man greier ikke å bevise en sammenheng mellom modellen man ønsker å påvise, og resultatet. Hvis man derimot får et resultat som terningene ville ha gitt i bare 5% av tilfellene eller mindre så begynner det derimot å bli interessant. Da kommer man inn i et område hvor det blir mindre og mindre sannsynlig at personen(e) som lytter gjetter seg fram, og at man observerer en reell effekt.
Dette er et regneark med binominal-fordelingen som kan bruke til å regne ut sannsynligheten for å få et gitt resultat med bare "flaks".
Vi ønsker gjerne regel og forståelse som er almengyldig. Derfor vil vi utforme testen med kildemusikk, lyttepanel, utstyr etc slik at :
1) Det er lettest mulig for andre å gjenskape forsøket uavhengig og dermed styrke funnet
2) Resultatet får praktisk anvendelse utover å vinne en diskusjon på et forum
En vanlig felle er at man finne en eller annen (dårlig dokumentert) blindtest som ser ut til å bevise det man tror og så trekker den fram som et bevis. Hvis man gjennomfører 1000 like blindtester uavhengig av hverandre så er det faktisk helt forutsigbart at en av dem kan komme til feil konklusjon! Å trekke ut meninger som ikke er det fra statistiske data er et klassisk tilfelle av "observer-expectancy-effect".
For å få et ufarget bilde bør man gå igjennom de testene somer gjort på et område (og definere området før man ser igjennom tilgjengelige tester), eller bestemme seg for at en test skal gjøres gjeldende og offentliggjøres før man faktisk gjennomfører den.
Blindtester ved veldig små forskjeller
Når man skal kartlegge virkelig marginale forskjeller så begynner det å bli krevende å gjøre blindtester. Dersom man skal bevise et fenomen som faktisk inntreffer for 1% av befolknigen, 1% av tiden, for 1% av kildematerialet, etc så kreves det stadig større tester for å få et signifikant resultat. Man kan forbedre resultatet ved å velge ut f.eks lyttepersoner som har gode odds for å være blant disse "1%", f.eks hifi-interesserte som hevder å høre forskjeller. Det er fremdeles mulig å bevise, men etterhvert som forskjellen går imot "uendelig liten" så øker også anstrengelsene som skal til for å bevise den mot "uendelig stor".
Blindtesting er tross alt bare lytting i en litt mer formalisert setting. Hvis man sliter med å bevise et marginalt fenomen i en kontrollert blindtest med kraftige statistiske metoder med endel arbeidstimers innsats, hva tror da leseren om sannhetsgehalten i tester utført i hifipressen hvor man kobler opp utstyret og skal skrive en artikkel om lydkvaliteten etter noen timers seende lytting?
Hvis argumentet er en hypotese om at esoteriske hifi-kabler gir uendelig små fordeler så vil vi sannsynligvis aldri greie å påvise dem selv om de eventuelt er reelle. Jeg vil da hevde at den som lanserer en slik hypotese selv neppe kan ha konstatert dette faktum fordi det er så vanskelig å detektere, bare lansert det som en hypotetisk modell.
Man kan da spørre seg: hvis et fenomen er så marginalt at det ikke lar seg detektere i store blindtester, er det et fenomen jeg gidder å bruk penger på? Er det et fenomen jeg gidder å krangle om på diskusjonsfora? Er ikke "hifi-pressen" i så fall hyklerske når de snakker om store forskjeller og endog utbroderer typen lydmessige forskjeller, når man i så fall burde forvente at disse lett kunne høre noen som helst forskjell i en blindtest?
Hva skjer når man får tatt en slik blindtest?
Den lille erfaringen jeg har med å gjøre blindtester, og større erfaringen jeg har med å lese dem tyder på at i de aller, aller fleste tilfelle så blir deltakerne slått av hvor vanskelig det var å høre forskjell. I alle fall hvis dette er personer som på forhånd har ment at det var tydelige hørbare forskjeller mellom de aktuelle komponentene. Eksempler på dette kan f.eks være:
Hifisentralen - Dobbel ABX Blindtest arrangert!
Omtaler - HiFi-Sentralens store lille blindtest
Secrets Feature Article
Og denne som er helt ny:
http://avforum.no/forum/kabler/56715-liten-blindtest-av-rca-kabler.html
4.5 Hvordan tolker man et null-resultat?
At personene under test ikke greier å bekrefte hørbar forskjell betyr bare nettopp det : at man ikke greide å påvise den. Det betyr ikke at det ikke er noen forskjell. Hvis testen er utformet nært opp mot situasjonen hvor lytteren hevder at det er tydelig forskjell når man ser komponenten kan man spørre seg om hva som er grunnen til at det ofte blir et slikt avvik mellom rapporterte fenomener ved seende lytting, og bekreftede forskjeller ved blind lytting. Noen mulige forklaringer er:
- Noe er fundamentalt galt med å lytte uten all informasjon tilgjengelig : forsterker A låter faktisk bedre enn forsterker B men man må se på den for å høre det
- Blindtester gjennomføres ofte/alltid på en måte som maskerer forskjellene man lett hører ved seende lytting
- Mennesket er en grunnleggende subjektiv innretning som kommer til konklusjoner på bakgrunn av alle sanser og erfaring, uten selv å kunne analysere prosessen bak
- Vi er så opptatt av å ha rett og å ha valgt rett at vi hevder å høre forskjeller når vi "vet" hva fasiten er. Når fasiten er ukjent kan vi umulig støtte oss til den og svarene blir som terningkast
"Små forskjeller kan bety mye for noen og lite andre"
Der er jeg helt enig, og når det faktisk er en lydmessig forskjell (enten vi lykkes i å påvise den eller ikke), så er det sannsynligvis veldig individuelt 1) Om man bikker under eller over terskelen hvor det er mulig å konstatere noen som helst forskjell, og 2) Hvis man detekterer forskjellen, hvor mye vekt man legger på den i "irritasjon" eller "fornøydhetsfaktor".
Diskusjonen innen hifi-relaterte emner går i stor grad på hvorvidt det er mulig å konstatere noen som helst forskjell (for debattanten, eller for menneskeheten under ett), og så lenge den ene "fronten" ("subjektivistene") benytter seg av metodikk som den andre fronten ("objektivistene") ikke kan godta som bevisføring så ser den andre fronten seg nødt til å regne fenomenet som "ikke bevist", og tyr derfor gjerne til fysikk/teknikk som argumentasjon, eller viser til et antall blindtester som ikke gav positivt resultat.
En opplagt måte å løse slike disputter på (hvis det måtte være ønskelig), er at de som hevder å høre et fenomen går igjennom en blindtest som beviser innen en gitt signifikant at fenomenet eksisterer for dem, og deres gitte oppstilling. Da er det opp til andre å repetere testen for å finne ut om dette er et generelt fenomen. Det er også en test på den opprinnelige testens kvalitet, da tester som ikke kan gjentas kan være tvilsomme.