Hurra, en skikkelig krangletråd! Altfor lenge siden sist.
Altså, once more, from the top:
La oss anta at vi ønsker å finne ut om to bestemte signalkabler gir en hørbar forskjell for garvede audiofile lyttere. For å være enda mer konkret, anta at kabel A er dyrere enn kabel B, og hevdes å gi en forbedring som forsvarer denne prisen. Null-hypotesen er da at eventuell opplevd forskjell skyldes tilfeldigheter eller andre årsaker som ikke har med selve lydkvaliteten å gjøre. Vi prøver å konstruere et eksperiment som skal avkrefte denne hypotesen. En mulig testprosedyre er å samle sammen et representativt panel av audiofile personer, sette opp et anlegg som antas å være tilstrekkelig følsomt til å kunne gjengi den typen forskjeller som det er snakk om, og gjennomføre en randomisert dobbelt-blind A/B-test. Hver enkelt forsøksperson ville da høre på et musikkstykke gjennom hver av de to kablene, i tilfeldig rekkefølge, for så å skrive ned sin preferanse. A eller B, evt ingen forskjell. Legg merke til at disse forsøkspersonene ikke må være forstokkede skeptikere, som visstnok bare vil stikke fingrene i øra, synge "lalalala" og krysse av for "ingen forskjell" hver gang. Påstås det. Derfor er f eks Roysen og Espen R mye bedre egnet som forsøkspersoner enn f eks knutinh og meg. Hverken forsøksperson eller den som overvåker testen skal vite hvilket testobjekt som står i. For å redusere "stress", bør omgivelsene være behagelige og forsøket gjennomføres uten tidspress. Helst bør forsøkspersonen selv få lov til å styre switching mellom de to testobjektene, frem og tilbake så mange ganger som nødvendig for å gjøre seg opp en mening. Siden det sannsynligvis dreier seg om små forskjeller mellom testobjektene, vil det være nødvendig å gjenta forsøket et betydelig antall ganger med forskjellige forsøkspersoner og forskjellige musikkstykker. Dessuten bør hver forsøksperson gjenta forsøket et antall ganger. Oppløsningen i forsøket vil øke med økende antall forsøk - selv ørsmå forskjeller vil bli avdekket hvis vi kan gjenta eksperimentet tilstrekkelig mange ganger, f eks noen millioner enkeltforsøk. Så får man gjøre opp statistikken til slutt og bedømme sannsynligheten for at differansen i de oppgitte preferansene kan skyldes rene tilfeldigheter. Hvis den sannsynligheten er tilstrekkelig liten, f eks mindre enn 5 %, har vi sannsynliggjort at det er en forskjell og dermed forkastet nullhypotesen. So far, so good. Det er åpenbart litt krevende å sette opp en slik test, men det lar seg altså gjøre med nok tid og penger. (ref artikkelen Audio Science som jeg lenket til lengre oppe i tråden)
Validering av testprosedyren er noe annet. Anta at vi vil finne ut om den foreslåtte testprosedyren funker. Null-hypotesen vil da være at poengsettingen skyldes rene tilfeldigheter. Da vil fush' forslag om å blindteste en plate med Katie Melua mot en med Åge Aleksandersen være helt utmerket. Vi får testet avspillingsutstyret, knappen for å velge testobjekt A vs B, stemmegivningen og statistikken. Eller enda enklere, vi kunne teste en kabel mot
ingen kabel. De fleste bør være i stand til å høre at det kommer musikk med bryteren i den ene stillingen, og ingen musikk med bryteren i den andre stillingen. Så samler vi sammen statistikken, og regner ut sannsynligheten for at dette resultatet (f eks 100 % gjenkjennelse av kabel vs ingen kabel) kunne oppstått ved rene tilfeldigheter. Hvis det viser seg at den sannsynligheten er større enn f eks 5 % , vet vi at det er noe fundamentalt galt noe sted, enten med det fysiske oppsettet av forsøket (virker bryteren?), med forsøkspersonens hørsel (stokk døv?), eller med antallet forsøk (2 riktige i 2 forsøk - ja, men det er 25 % sjanse for det også i myntkast). Hvis det derimot viser seg at forsøksoppsettet greier å gi et signifikant resultat, så må vi forkaste null-hypotesen - det er usannsynlig at dette resultatet skyldes rene tilfeldigheter, så testprosedyren synes å fungere.
Dessuten kan man rent analytisk beregne sannsynligheten for at et eksperiment skal være i stand til å avdekke en liten forskjell. Anta at forskjellen er så liten at jeg (eller du) vil legge merke til den 6 av 10 ganger i snitt. Altså en liten bias for den ene kabelen, kanskje avhengig av musikkstykke eller dagsform. Null-hypotesen er at det ikke er noen forskjell, altså 50/50 sjanse for at vi vil oppleve en forskjell. Gjør vi 10 forsøk og får de forventede 6 positive, så er det ikke signifikant. Det er hele 37 % sjanse for at dette kunne skjedd tilfeldig. Med 50 forsøk og 30 positive er det fortsatt 10% sjanse for at dette kunne skjedd helt tilfeldig. Først ved 80 forsøk og 48 positive er vi nede under 5 % sannsynlighet for at dette er ren tilfeldighet. Da kan vi "forkaste null-hypotesen med 95 % konfidens", som er en fancy måte å si at vi er rimelig sikre på at vi hørte forskjell. Og hvis forskjellen er mindre, dvs at antall positive blir nærmere og nærmere 50% av forsøkene, så må vi gjøre enda mye lengre forsøksserier for å kunne skille ut forskjellen fra bakgrunnsstøyen. I prinsippet kan vi skille ut hvor liten forskjell som helst, bare vi kan gjøre lang nok forsøksserie og det faktisk er en forskjell å skille ut. Likevel kan vi aldri
helt utelukke at det kan være en forskjell, uansett hvor lang serie vi kjører. Vi har jo satt opp forsøket for å forsøke å utelukke at dette er likt, ikke motsatt.
Derfor kan en mer "vitenskapelig" formulering av Roysens synspunkt være at forskjellen i lydkvalitet mellom ulike kabler er så liten at det vil kreves en upraktisk lang forsøksserie for å skille den ut pålitelig i en blindtest. En annen tolkning kan være at det er kun utenomtekniske årsaker til at det oppleves en subjektiv forskjell, såsom pen innpakning, flott design, høy pris, placebo, eller hva som helst, og altså ikke signaloverføringen/lydkvaliteten. Det er i så fall et utsagn om forskjellen mellom testobjektene, ikke om testprosedyren som sådan. I begge tilfeller er det mange av oss som kan være enige...
Det vi derimot ikke kan gjøre er å blande sammen disse to forsøkene, ved f eks å "validere" prosedyren med omstridte testobjekter. Anta at jeg påstår at det er forskjell på to signalkabler, ja, en så elefantastisk stor forskjell et ethvert blikk-øre må høre det, og kanskje jeg til og med selger den beste av dem til en hungrende almue for a nominal service charge, so that you can reach Nirvana tonight. Hvis vi gjennomfører den første testen, og denne viser at testpanelet ikke kan høre forskjell, så kan vi ikke bruke dette resultatet til å forkaste
testen, bare hypotesen om at det er en hørbar forskjell. Hvis vi gjennomfører det andre forsøket, og denne viser at testpanelet ikke kan høre om det står en kabel i eller ikke, så kan vi ikke bruke det resultatet til å forkaste den fantastiske
signalkabelen, bare hypotesen om at testen funker. Blander vi disse to sammen, som visse debattanter insisterer på å gjøre, blir resultatet bare tøv.
Og siden det muligens vises til en tråd jeg startet for en stund siden:
For en tid tilbake var det temmelig stor enighet om at det var både målbare og hørbare ulikheter på kabler, men det var ikke enighet om at dette også gjaldt kabler som var konstruert for å være nøytrale.
Hint: 300 W. På hvert diskantelement. Delefrekvens 1400 Hz. Byttet signalkabel. Over tid ble lyden litt mørkere. Etter hvert ble den
mye mørkere, selv om samme signalkabel ble stående i. Til slutt ble det også påfallende mye forvrengning oppover i diskanten. Heller tvilsomt om det skyldtes innbrenning av kabelen. Tror heller det var noen høyttalerspoler som ble
utbrent. Jeg skal poste en oppdatering til den tråden når jeg får byttet diskanter, forhåpentligvis senere denne uken.
EDIT: Korrigert ihht korreks fra KJ, se nedenfor.