Blindtester (igjen) revidert

Vegardaase · 15.08.2007

Hadde litt tid å slå i hjel, så jeg tenkte å prøve noe jeg ofte har tenkt på. Hva er poenget med å diskutere her? Er det å vinne diskusjoner eller å forsøke å lære noe nytt?

Jeg synes ofte trådene kan starte bra og så "ta helt av" slik at man ender med å diskutere eksistensielle/metafysiske fenomener. Dette synes jeg er en uting fordi jeg synes det hadde vært fint med en god struktur i trådene, slik at man kunne slå de opp ved en senere anledning. Det beste eksempelet her må være Avforum i perioden 2000-2003 der det var en systemtekniker fra Videosystem som svarte på stort sett alt man lurte på angående projektorer. Fantastisk!

Vel, vel. Uansett ved å fjerne innlegg av typen: "du sier jo at...", "er du dum?? Det har jeg aldri sagt...", "uansett er du en dust....." osv, ville strukturen blitt mye bedre og mer oversiktlig å lese. Temperaturen ville nok falle, og det er kanskje ikke alle interessert i..? Uansett har jeg påtatt meg oppgaven og her følger en redigert utgave av tråden Blindtester (igjen), der jeg har fjernet usakligheter og OT inlegg:

God lesning om noen er interessert... :

knutinh skrev:
Siden den andre tråden ble stengt så ser jeg mitt snitt til å starte en ny tråd - på mine premisser.

Premissene for å delta er som følger:
1. For å delta i denne tråden må du oppføre deg fint, følge forum-reglementet, og poste maksimalt en post pr dag. Dette for at de av oss som har et annet liv skal ha en mulighet til å følge med på diskusjonen.

2. Du må lese/skumme igjennom hele posten og gjøre deg kjent med noen "standard-argumenter". Hensikten er ikke å repetere argumenter som allerede er kjent og besvart, men å kritisere svaret, eller komme med nye. "Alle" har sett de samme gamle argumentene, og ingen av oss ønsker vel unødig repitisjon?

3. Hensikten med tråden er å komme med argumenter for et syn, og motargumenter. Det er ikke ønskelig å kritisere noen for at de deltar.

(Dette dokumentet oppdateres fortløpende)

Jeg har vært medlem i forumet noen år og postet et anseelig antall poster (5501 p.t.) og en ikke ubetydelig andel av disse har handlet om hifi, hva som er hørbart eller ikke, hva som er rasjonelle kjøp og disse evindelige hifi-kablene. Jeg har vel følelsen av at debatten har kjørt seg fast i et relativt lite interessant spor, hvor det handler om å slå hverandre hardest mulig i hodet med de samme gamle argumentene. Samtidig ser jeg at det er mange som oppriktig lurer på ting, og når disse stakkarene stiller et troskyldig spørsmål så er lurvelevenet i gang...

Innhold
1. Innledning
1.1 Hvem er knutinh?
1.2 Hva er dette? Enda en hifi-debatt??
1.3 Følelser
1.4 Subjektivisme og Objektivisme

2. Metode og filosofi
2.1 Test-metodikk
2.2 Hva er "hørbar"?
2.3 "Folk må få ha hobbyen sin i fred"
2.4 "Man må ha et åpent sinn, vitenskapen kan ta feil"

3. Seende lytting
3.1 Tilbake til spørsmålet
3.2 "Det må da være best å stole på øra?"

4. Blind Lytting
4.1 Å virkelig stole på øra
4.2 "Blindtester har alt for korte klipp"
4.3 Svakheter ved blindtester
4.4 Blindtester ved veldig små forskjeller
4.5 Hva skjer når man får tatt en slik blindtest?
4.6 Hvordan tolker man et null-resultat?

5. Generelle innvendinger
5.2 "Små forskjeller kan bety mye for noen og lite andre"
5.2 "Det er frekt ikke stole på voksne menneskers opplevelser"
5.3 "Du syns visst at vi er bra dum, du?!??"
5.4 "Dette er ikke noe å diskutere - jeg har hørt det altså er det et fysikalsk faktum"
5.5 "Det at (f.eks) kabelbransjen eksisterer er i seg selv tilstrekkelig bevis på at produktene deres gir bedre lyd. Hvis ikke ville de ikke fått solgt produktene sine"
5.6 "Du hører ingen forskjell, altså har du dårlig utstyr eller dårlig hørsel"
5.7 "Hvorfor deltar du i disse debattene, få deg et liv"
5.8 "For meg teller ikke blindtester, bare resultatet jeg får når jeg setter meg i godstolen"

6. Teknikk og Fysikk
7. Foreløpig konklusjon
8. Lesestoff

Hvem er knutinh?
Jeg har ikke noe ønske om å stå fram med fullt navn. Jeg ser ikke hvordan det gavner debatten. For ordens skyld har jeg en teknisk bakgrunn, jeg spiller musikk-instrumenter og jeg er veldig interessert i musikk og lydgjengivelse. Dessuten har jeg solgt hifi-utstyr i min ungdom. Foruten dette må leseren gjerne anta at jeg er døv og liker Sputnik, selv om begge deler er feil Hvis du er avhengig av "guru-er" som påstår å ha gullører, utstyr til flere hundre tusen og tidligere ansettelse i NASA (uten dokumentasjon) etc for å lese noens argumentasjon så vil du ikke bli fornøyd med dette innlegget. Jeg prøver å putte meg selv utenfor "boksen" og snakke om hva jeg ser.

På tross av hva enkelte påstår så er ikke mitt engasjement bunnet i en ondsinnet plan om å ødelegge hobbyen til folk. Jeg er genuint interessert i å vite og å forstå - i den rekkefølgen. Mer om dette lengre ned.

Hva er dette? Enda en hifi-debatt??
Nei. Jeg vil utrede for mitt syn, trekke inn de henvisninger jeg finner nødvendig og prøve noe som ofte syndes mot i slike debatter: jeg vil prøve å trekke inn "motpartens" syn. Jeg mener at det er god diskusjonsteknikk å være sin egen "verste fiende" slik at du får inn flest mulig gyldige argumenter og mot-argumenter i en og samme tekst. Hvorvidt jeg lykkes får være opp til leseren. Hensikten er uansett å ha en oversiktlig forklaring som forhåpentligvis blir litt bedre i språket og konsekvent i argumentasjonen enn raske ordskifter i en debatt. Jeg vil altså unngå å delta aktivt i framtidige debatter, men henvise (og la andre henvise) til denne om nødvendig.

Følelser
Hvorfor blir folk så hissige når man diskuterer hvorvidt en strømkabel til 10.000 har noen hørbar effekt? Jeg vet ikke. Kanskje er det slik at enhver interesse man er dypt engasjert i lett kan vippe over i irritasjon og frustrasjon når ting ikke går som man vil. Jeg har et inntrykk av at manglende evne til å argumentere gjør at man lettere føler at motparten er nedlatende, og at terskelen for å komme med et utbrudd blir lavere, men dette er bare subjektiv synsing fra min side ;-)

Subjektivisme og Objektivisme
Disse termene henviser til to konkrete filosofiske retninger, subjektivisme og objektivisme. Disse stemplene settes på to grupper av tankesett som ofte finnes innen hifi, uten at forbindelsen til termene alltid er så presis. Vi kunne like gjerne ha stemplet disse gruppene som hhv "De som har stor tillit til sansene og opplevelsens presisjon", og "de som er skeptiske til menneskets evne til å sanse virkeligheten" (eller "skeptikere", "rasjonalister").

Logiske følger av disse måtene å tenke på er f.eks at den første gruppen tenderer til å tenke "jeg oppfatter at CD-ene låter bedre når jeg maler dem grønn, altså er de bedre", mens den andre gruppen tenker "all fysikk tilsier at grønnmaling ikke skal ha noen betydning, og når blindtester ikke understøtter at det er noen lydmessig forskjell så er det mest sannsynlig et utslag av sinnets påvirkning på sanseinntrykk".

"Subjektivister" hevder ofte at resultatet overskygger forståelse, og at det er likegyldig hvorvidt en observasjon kan settes inn i en fysisk/vitenskaplig modell så lenge opplevelsen er der. "Objektivistene" vil derimot ofte hevde at en observasjon styrkes av at den kan settes i sammenheng med andre observasjoner og modeller, og at enkle, globale forklaringsmodeller er bedre enn kompliserte og lokale forklaringer hvis de forklarer observasjonen omlag like bra.

Dette gir noen interessante paradokser, så som at vi alle er avhengige av fysikk og vitenskap for at CD-spillere og forsterkere skal virke, men enkelte hevder at den samme vitenskapen kommer til kort i å designe kabler som forbinder de samme enhetene. De fleste vil være enige i at en CD-spiller er et mye mer komplekst produkt enn en kort kabel. Dette gjenspeiles også i reklame og mytologi rundt hifi-produkter hvor "subjektivismen" trekkes så lang at man kan få inntrykk av at Marantz har kastet en tilfeldig mengde motstander, kondensatorer, spoler og transistorer i en bolle, "rørt rundt" og så kommet opp med uendelig mange inkarnasjoner av CD-spillere (hvorav 99.999% ikke fungerte eller brant opp), og så fin-lyttet seg fram til den som låt best.

Heldigvis (?) så er verden skjelden så polarisert som den kan framstå i en opphetet debatt, og de fleste mennesker må nødvendigvis kombinere skepsis med tillit, etterprøvbarhet med tilsynelatende etc for å komme igjennom hverdagen.

Scientific method - Wikipedia, the free encyclopedia
Scientific realism - Wikipedia, the free encyclopedia

Test-metodikk
Bakgrunnen for så godt som all hifi-krangling er ene og alene at man ikke kan enes om 1)Forskjellen eksisterer eller 2)Om evt forskjell er stor, og til det bedre eller verre. Vi har forskjellig smak og når noen liker mora og noen dattera så blir det gjerne en utveksling av meninger, og konstatering av at man er uenig. Selvsagt er det noen som ikke godtar at andre foretrekker "Daewo" framfor Martin-Logan men som regel må man innse at smaken er forskjellig og være enig om det. Det skaper mye større strid når man ikke greier å bli enig om det er noen som helst hørbar forskjell. Det er da det kommer beskyldninger om "dårlig hørsel", "dårlig utstyr" etc. Dette er også det eneste spørsmålet jeg vil gå videre på.

Hva er "hørbar"?
Dette virker opplagt men det er ingen grenser for hva man ender opp med å diskutere. Med hørbar mener jeg noe som forplanter seg som trykkbølger i (typisk) luft, som registreres av (primært) ørene våre, og som oppfattes i de kognitive prosessene i hjernen. Mao mener jeg at "hørbart" fremdeles er hørbart hvis du våkner opp en dag uten syn. Når vi snakker om "hørbart" i generelle termer, så som "slike lyder er hørbart bare for flaggermus" så må man være presis med om man mener at 1)alle mennesker med frisk hørsel hører dette 2)Ingen menneske vil noen sinne kunne høre dette 3)Jeg hører dette eller 4)Jeg tror at folk flest kan/kan ikke høre dette.

"Folk må få ha hobbyen sin i fred"
Av en eller annen grunn tropper folk opp på diskusjonsforum og forventer at de skal få lufte sine ideer uten at andre skal motsi dem. Jeg synes at denne tanken er både litt egoistisk og uspennende. Det er jo når noen er uenig at diskusjonen oppstår, og ofte trenger man å måtte forsvare sine ideer litt for å komme til dypere innsikt selv. Ellers er det slik at man som trådstarter kan bemerke hvilke typer innlegg man ikke ønsker i tråden - folk er stort sett flinke til å etterleve det. En undervurdert taktikk er - dersom man bare vil ha hobbyen sin i fred - å rett og slett ikke besøke slike forum men få mer tid med hobbyen sin, evt ikke klikke seg inn på tråder og trådstartere som man vet leder til frustrasjon.

"Man må ha et åpent sinn, vitenskapen kan ta feil"
Dette er et vanlig utsagn. Det er helt rett at akademikere har tatt fryktelig feil som enkelt-personer og som gruppe før. De kommer til å gjøre det igjen også. Spørsmålet er hvordan man skal innrette seg når man har kommet til denne erkjennelsen. Skal man kaste all kunnskap og teknologi over bord og leve av røtter og ville bær? Eller skal man godta noe vitenskap med en klype salt? Skal man godta den vitenskapen som bærer med seg et resultat man liker eller skal man selv prøve å vurdere argumentasjonen bak?

Kan man ikke benytte vitenskap til å finne de svar som "mest sannsynlig" er rett slik at man har størst mulig sjanse for å forstå verden rett (hvis fasit ikke foreligger)? Hvis man skal være 100% åpensinnet så kommer det for mange av oss opp noen dilemmaer. Noe snakker om gud. Andre om UFO-er på nattlige besøk, å bøye skjeer på tv eller slankebelter som gjør deg til gresk gud/gudinne på 24 timer. Noen påstår fremdeles at jorda er flat. Skal vi godta alle disse utsagnene? Hvis ikke, hvorfor skal man avvise noen og "kjøpe" andre hvis ikke fordi man vurderer dem som plausible mens andre er humbug?

Tilbake til spørsmålet
Ok, nok filosofi for nå... Hvis man ønsker å finne ut av en hifi-nøtt (eller krangel), hvilke metoder har man da? Det finnes tre metoder som er "godkjent" fra et noenlunde vitenskaplig ståsted:

Blindtester som kan bevise at det er hørbar forskjell på f.eks kabel A og B, eller finne preferanser i en gruppe

Fysiske modeller av kretser som sammen med kunnskap om menneskets hørsel kan gi en dyp forståelse av hva som "egentlig skjer".

Målinger av relevante parametre som sammen med kunnskap om menneskets hørsel kan brukes til å oppnå innsikt i evt forskjeller fra et teknisk ståsted uten å gjøre for mange forenklinger

I tillegg til disse tre har vi en fjerde metode, den "vanlige måten" som hifimagasiner har benyttet de siste 20-30 åra hvor man simpelten setter opp utstyret og lar en erfaren lytter gjøre seg opp en mening ved å lytte til CD-plater han kjenner godt.

"Det må da være best å stole på øra?"
Helt klart. Og da mener jeg å stole på ørene fullt ut uten å "jukse" med å se på forsterkerfrontene eller utveksle blikk med selgeren. Hvis vi ønsker å finne ut hvor god lyd et produkt har så virker det innlysende at ørene er rett organ fra å sjekke det. Det som kanskje ikke er like innlysende er at mennesket er et utrolig dårlig måleinstrument. Vi har overlevd og utviklet oss på bakgrunn av å unnslippe sabeltanntigre og å høre kvinner i nød, ikke ved å analysere 0.5dB nivåvariasjon mellom høyre og venstre kanal. Hvis vi setter mennesket til å skille komponent A fra komponent B i en blindtest så kjenner jeg ikke til noen grener hvor vi kan slå måleutstyr innen "hifi-parametre" - stikk i strid med hva mange hifi-interesserte påstår om våre fantastiske sanser. Og i en slik test har vi jo faktisk fasiten - vi vet jo hvorvidt vi har byttet produkt eller ikke. Hvis lytteren sier at produkt A har bedre holografi enn produkt A så tar han enten feil eller bløffer. Når det kommer til å tolke, kjenne igjen og engasjeres av musikken er vi derimot uslåelige...

Et intervju med Floyd Toole

Hvorfor er det et slikt stort avvik mellom resultatet man får vha blindtester, målinger og teori på den ene siden, og "seende lytting" på den andresiden? Tihengerne av slik seende lytting vil ofte forklare dette med at vitenskapen ikke har kommet så langt, at det er "ett eller annet galt med blindtester, for vi ser jo at svaret er feil" etc.

Jeg er ikke enig i et slikt syn. Det er foretatt nøye, vitenskaplige tester av menneskets oppfattelse av smak, lukt, syn og hørsel. Man har sett på hvordan personer i en test oppgir preferanser, og hvordan mennesket er grunnleggende "upålitelig", hvordan det vi forventer skal skje påvirker det vi mener skjer, hvordan selv den tredje-personen som bare skal observere hva du rapporterer om forskjeller underbevisst farger resultatet. Dette er momenter som har vært kjent og akseptert i vitenskaplige sammenheng i mange år, det er ikke noe spesielt kontroversielt ved det annet enn innen hifi hvor motstanden er stor. Jeg kan ikke komme på noen annen grunn til at man avviser noe så alment akseptert annet enn at man ikke liker resultatet som kommer ut. Og hva slags tilnærming til verden er det, hvis det er tomt på lønnskontoen i midten av måneden så knuser man kalkulatoren fordi det må være noe feil med den?

Å virkelig stole på øra
Dette leder til den såkalte placebo-effekten som får enhver kabel-fantast til å se rødt. "Hva?? tror du meg ikke? Tror du at jeg ikke vet hva jeg hører selv?" Nei, avhengig av hva man legger i det å "høre" så tror jeg faktisk ikke alltid at man vet hva man hører selv. Selvsagt vet man hva man oppfatter, hvordan man føler seg etc. Men derifra til å konkludere at alle inntrykkene utelukkende kommerifra hørselen mener jeg er en feilslutning all den tid vitner i rettssaker og syke mennesker lar seg "lure" av sterk overbevisning til å hhv peke ut helt feil person i en line-up, eller å føle seg friskere av å ta sukker-piller . Hvorfor skulle vi være noe annerledes?

Når proffe vinsmakere som lever av (og for?) smaken sin erkjenner at de må benytte belysning som gjør at all vin ser lik ut, fjerne etiketter og alt som lar dem kjenne igjen produsenten for å greie å svare på det enkle spørsmålet: "er det noen forskjell, hvilken er best", hvorfor må ikke vi det samme? Spesielt når det finnes godt utviklede metoder for dette?

Prisbom i blindtest av vin
"Prisbom i blindtest av vin

TRONDHEIM (VG) Både folkejury og vineksperter bommet med flere hundre kroner da de gjettet pris på vin.
...

Ekspertene gjettet feil pris/prisklasse på åtte av ti viner. Folkejuryen tippet riktig pris/prisklasse på tre av ti viner.

Hvitvinen Mersault til 458 kroner ble av ekspertene tippet til å koste maks 200 kroner. Folkejuryen holdt en knapp på 120 kroner.

Det var generelt store avvik mellom gjettet prisklasse, og hva vinene faktisk koster i Vinmonopolets hyller.

De to ekspertene leverte gjennomgående treffsikre beskrivelser av smak og vinens utseende i testen. Ofte anga de riktig druesort, årgang og vindistrikt. Men de bommet sammenlagt på seks av ti land. Folkejuryen likte best de mestselgende vinene.

"

"Blindtester har alt for korte klipp"
Dette er en vanlig forekommende kritikk mot blindtester. Blindtester er designet for å få størst mulig sannsynlighet for positivt resultat, siden det motsatte har liten verdi. En av måtene å oppnå dette på er å ta hensyn til at mennesket har veldig kort "lyd-hukommelse". Det vil si at ved å skifte raskt mellom kuttene (10-15 sekunder) og ha kortest mulig avbrudd, så øker sannsynligheten for positiv deteksjon.

(referanse mangler)

Selvsagt er det mulig å øke denne klipplengden, noe man også har gjort i f.eks Løkkens test. Hvis korte klipp var forklaringen på avvik mellom seende og blind lytting så ville man forvente at blinde tester med lang klipplengde ville gi samme resultat som seende lytting, noe som de etter min mening generelt ikke gjør.

Det som er litt ironisk er at en av kritikkene mot blindtester er for _lang_ svitsjehastighet eller ventetid mellom strømkabel A og strømkabel B. Når man faktisk skal bruke dette utstyret etter å ha gjort et valg så er jo lyttetiden kanskje 2 år, mens svitsjetiden er tiden det tar å pakke ned det gamle anlegget og sette opp det nye.

Svakheter ved blindtester
Det er flere praktiske ulemper ved blindtester. Kravet om å kunne bytte raskt uten at lytteren vet hva han bytter fra og til er vanskelig med høyttalere siden plassering i rommet har såpass stor betydning. Dette gjør det også vanskelig å teste f.eks strømkabler mot hverandre.

Resulatet fra en ABX dobbelt blindtest kan bare brukes til å indikere at :
1. Dersom man hadde kastet terning så ville det aktuelle resultatet ha skjedd X % av gangene etter uendelig mange forsøk.

Alt annet ligger i tolkningen. Hvis svaret er at man ville fått samme resultat ved å kaste terning i 50% av tilfellene så er testen ikke konklusiv, man greier ikke å bevise en sammenheng mellom modellen man ønsker å påvise, og resultatet. Hvis man derimot får et resultat som terningene ville ha gitt i bare 5% av tilfellene eller mindre så begynner det derimot å bli interessant. Da kommer man inn i et område hvor det blir mindre og mindre sannsynlig at personen(e) som lytter gjetter seg fram, og at man observerer en reell effekt.

Dette er et regneark med binominal-fordelingen som kan bruke til å regne ut sannsynligheten for å få et gitt resultat med bare "flaks".

Vi ønsker gjerne regel og forståelse som er almengyldig. Derfor vil vi utforme testen med kildemusikk, lyttepanel, utstyr etc slik at :
1) Det er lettest mulig for andre å gjenskape forsøket uavhengig og dermed styrke funnet
2) Resultatet får praktisk anvendelse utover å vinne en diskusjon på et forum

En vanlig felle er at man finne en eller annen (dårlig dokumentert) blindtest som ser ut til å bevise det man tror og så trekker den fram som et bevis. Hvis man gjennomfører 1000 like blindtester uavhengig av hverandre så er det faktisk helt forutsigbart at en av dem kan komme til feil konklusjon! Å trekke ut meninger som ikke er det fra statistiske data er et klassisk tilfelle av "observer-expectancy-effect".

For å få et ufarget bilde bør man gå igjennom de testene somer gjort på et område (og definere området før man ser igjennom tilgjengelige tester), eller bestemme seg for at en test skal gjøres gjeldende og offentliggjøres før man faktisk gjennomfører den.

Blindtester ved veldig små forskjeller
Når man skal kartlegge virkelig marginale forskjeller så begynner det å bli krevende å gjøre blindtester. Dersom man skal bevise et fenomen som faktisk inntreffer for 1% av befolknigen, 1% av tiden, for 1% av kildematerialet, etc så kreves det stadig større tester for å få et signifikant resultat. Man kan forbedre resultatet ved å velge ut f.eks lyttepersoner som har gode odds for å være blant disse "1%", f.eks hifi-interesserte som hevder å høre forskjeller. Det er fremdeles mulig å bevise, men etterhvert som forskjellen går imot "uendelig liten" så øker også anstrengelsene som skal til for å bevise den mot "uendelig stor".

Blindtesting er tross alt bare lytting i en litt mer formalisert setting. Hvis man sliter med å bevise et marginalt fenomen i en kontrollert blindtest med kraftige statistiske metoder med endel arbeidstimers innsats, hva tror da leseren om sannhetsgehalten i tester utført i hifipressen hvor man kobler opp utstyret og skal skrive en artikkel om lydkvaliteten etter noen timers seende lytting?

Hvis argumentet er en hypotese om at esoteriske hifi-kabler gir uendelig små fordeler så vil vi sannsynligvis aldri greie å påvise dem selv om de eventuelt er reelle. Jeg vil da hevde at den som lanserer en slik hypotese selv neppe kan ha konstatert dette faktum fordi det er så vanskelig å detektere, bare lansert det som en hypotetisk modell.

Man kan da spørre seg: hvis et fenomen er så marginalt at det ikke lar seg detektere i store blindtester, er det et fenomen jeg gidder å bruk penger på? Er det et fenomen jeg gidder å krangle om på diskusjonsfora? Er ikke "hifi-pressen" i så fall hyklerske når de snakker om store forskjeller og endog utbroderer typen lydmessige forskjeller, når man i så fall burde forvente at disse lett kunne høre noen som helst forskjell i en blindtest?

Hva skjer når man får tatt en slik blindtest?
Den lille erfaringen jeg har med å gjøre blindtester, og større erfaringen jeg har med å lese dem tyder på at i de aller, aller fleste tilfelle så blir deltakerne slått av hvor vanskelig det var å høre forskjell. I alle fall hvis dette er personer som på forhånd har ment at det var tydelige hørbare forskjeller mellom de aktuelle komponentene. Eksempler på dette kan f.eks være:
Hifisentralen - Dobbel ABX Blindtest arrangert!
Omtaler - HiFi-Sentralens store lille blindtest
Secrets Feature Article

Og denne som er helt ny:
http://avforum.no/forum/kabler/56715-liten-blindtest-av-rca-kabler.html

4.5 Hvordan tolker man et null-resultat?
At personene under test ikke greier å bekrefte hørbar forskjell betyr bare nettopp det : at man ikke greide å påvise den. Det betyr ikke at det ikke er noen forskjell. Hvis testen er utformet nært opp mot situasjonen hvor lytteren hevder at det er tydelig forskjell når man ser komponenten kan man spørre seg om hva som er grunnen til at det ofte blir et slikt avvik mellom rapporterte fenomener ved seende lytting, og bekreftede forskjeller ved blind lytting. Noen mulige forklaringer er:

Noe er fundamentalt galt med å lytte uten all informasjon tilgjengelig : forsterker A låter faktisk bedre enn forsterker B men man må se på den for å høre det

Blindtester gjennomføres ofte/alltid på en måte som maskerer forskjellene man lett hører ved seende lytting

Mennesket er en grunnleggende subjektiv innretning som kommer til konklusjoner på bakgrunn av alle sanser og erfaring, uten selv å kunne analysere prosessen bak

Vi er så opptatt av å ha rett og å ha valgt rett at vi hevder å høre forskjeller når vi "vet" hva fasiten er. Når fasiten er ukjent kan vi umulig støtte oss til den og svarene blir som terningkast

"Små forskjeller kan bety mye for noen og lite andre"
Der er jeg helt enig, og når det faktisk er en lydmessig forskjell (enten vi lykkes i å påvise den eller ikke), så er det sannsynligvis veldig individuelt 1) Om man bikker under eller over terskelen hvor det er mulig å konstatere noen som helst forskjell, og 2) Hvis man detekterer forskjellen, hvor mye vekt man legger på den i "irritasjon" eller "fornøydhetsfaktor".

Diskusjonen innen hifi-relaterte emner går i stor grad på hvorvidt det er mulig å konstatere noen som helst forskjell (for debattanten, eller for menneskeheten under ett), og så lenge den ene "fronten" ("subjektivistene") benytter seg av metodikk som den andre fronten ("objektivistene") ikke kan godta som bevisføring så ser den andre fronten seg nødt til å regne fenomenet som "ikke bevist", og tyr derfor gjerne til fysikk/teknikk som argumentasjon, eller viser til et antall blindtester som ikke gav positivt resultat.

En opplagt måte å løse slike disputter på (hvis det måtte være ønskelig), er at de som hevder å høre et fenomen går igjennom en blindtest som beviser innen en gitt signifikant at fenomenet eksisterer for dem, og deres gitte oppstilling. Da er det opp til andre å repetere testen for å finne ut om dette er et generelt fenomen. Det er også en test på den opprinnelige testens kvalitet, da tester som ikke kan gjentas kan være tvilsomme.

"Det er frekt ikke stole på voksne menneskers opplevelser"
Jeg vil vri litt på dette. Er det frekt av meg å ikke stole på Jehovas vitne når de kommer på døra? Jeg oppfører meg høflig, ja, men har jeg ikke lov til å være kritisk? Religion har det tilfelles med mange ting innen hifi at det ikke lar seg bevise, men også vanskelig lar seg motbevise. Er det ikke da like greit at det finnes noen som stiller spørsmål og er kritisk?

"Du syns visst at vi er bra dum, du?!??"
Nei. Jeg synes ikke at religiøse mennesker er dumme, og heller ikke at noen som bruker 100.000 på strømkabel er dum. Hva som gjør livet ditt bra vet bare du - om det er en ny kabel, en ny bil eller ung elskerinne. Det jeg er skeptisk til (i mange tilfeller) er hvorvidt det finnes lydmessige grunner til å velge som enkelte gjør, og i hvor stor grad påstander om at "Kabel A låter knallbra og gir helt fenomentalt 3d-perspektiv grunnet fjernet skin-effekt" bør få stå uimotsagt. På samme måte synes jeg at det er helt greit at folk velger å bli religiøse, og de fortjener å bli behandlet med respekt, men den respekten innebærer ikke at jeg må jatte med dem i en diskusjon i Aftenposten eller når de kommer på døra mi.

"Dette er ikke noe å diskutere - jeg har hørt det altså er det et fysikalsk faktum"
Det var vel slik slående selv-innsikt som sørget for at Fritz Moen ble uskyldig dømt...

"Det at (f.eks) kabelbransjen eksisterer er i seg selv tilstrekkelig bevis på at produktene deres gir bedre lyd. Hvis ikke ville de ikke fått solgt produktene sine"
Dette kunne ha vært et argument dersom alle kjøpere var perfekt rasjonelle og utelukkende gikk etter beviselige lydmessige egenskaper når de gjorde innkjøp. Jeg tror ikke at det er tilfelle. Mener de samme folkene at alle slankeprodukter beviselig fungerer siden folk kjøper produktene?

"Du hører ingen forskjell, altså har du dårlig utstyr eller dårlig hørsel"
Ved å opphøye egen opplevelse til objektiv sannhet ("jeg hører bedre holografi når jeg smører stolen inn med haifinneolje"), så prøver man å rasjonalisere andres motstridende erfaring med at noe er galt hos dem, med utstyret eller gjerne med ørene. Men så lenge man selv benytter en test-metodikk som (i mine øyne) ikke egner seg til å skille skitt fra kanel, så kan man umulig si om ens egen opplvelse er forbundet med lyd.

Det er umulig for leseren å avgjøre hvorvidt person A har gullører og faktisk rapporterer om et reelt fenomen, eller om han bare er pretensiøs eller ønsker veldig sterk at investeringen på 100.000 skal være forsvarlig.

Når naboen får en ny unge, er han objektiv når han sier at det er "verdens søteste unge"? Når han får ny bil, er han objektiv når han sier at "den er uslåelig"?

"Hvorfor deltar du i disse debattene, få deg et liv"
Er det bare jeg som ser ironien i at man går inn i en debatt og beskylder andre som deltar i debatten for å ikke ha et liv fordi de er med i debatten?

"For meg teller ikke blindtester, bare resultatet jeg får når jeg setter meg i godstolen"
Dette er en helt fair tilnærming til problemstillingen. I mine øyne samler du da responsen på lyd, utseende, forventning, etc i en "sekk", og vurderer om den er rett for deg. Så lenge du ikke påstår at du perfekt objektivt utelukkende baserer deg på lyd, eller at andre debattanter må godta utsagn som at "jeg hører nå at sølvkabelen låter mye bedre, dermed basta" ut fra et slikt oppsett. Hvorfor skulle du uansett bry deg om hvorvidt det er lyd eller utseende som fører til den positive opplevelsen, så lenge det er den positive opplevelsen som er målet?

Noen går til det skrittet å si at "placebo-effekten" er en ønsket effekt, og at det er dem helt likegyldig hvorvidt anlegget er basert på fysikk eller overtro, eller om fysikk har store huller. Det eneste målet er å få en god opplevelse, og hvis "placebo-effekten" bidrar til en bedre opplevelse så er det et tilfelle av målet helliger midlet. Jeg mener at dette er en logisk videreføring av en subjektivistisk tankegang, og veldig fornuftig ut fra dette.

Teknikk og Fysikk
For noen er det ikke tilstrekkelig med en relativt "uteknisk" gjennomgang av hva vi beviselig greier å høre vha blindtester som jeg har gjort lengre opp. De fremsetter påstander som tyder på en sviktende forståelse av fysikk (så som "husk på skin-effekten, da!"), samtidig som de krever aksept for at vitenskapen ikke har kommet langt nok. Jeg mener at det er et vilspor å bringe inn alt for mye fysikk og målinger i denne grunnleggende debatten, men det er selvsagt mulig å regne og modellere på kabler og andre tweaks. Jeg håper å putte inn en rask gjennomgang av noen sentrale fenomener i denne bolken.

Foreløpig konklusjon
Jeg mener at det er en overdreven fokus på de momentene som det hersker uenighet om. På de fleste områder er det faktisk god overenstemmelse mellom de fleste tilnærminger, enten man utgir seg for å være objektiv eller subjektivistisk i sin tilnærmingsmåte. For meg er det slik at summen av bevis og indisier peker i retning av at veldig mye av de "tvilsomme" fenomenene innen hifi er humbug. Og kanskje enda viktigere er det totale fraværet av håndfaste bevis som man kunne forvente ville være lett å fremskaffe for industrien selv hvis de hadde et skinn av seriøsitet. Desverre kan man si det samme om slankeindustrien - de selger godt uansett, de trenger ingen dokumentasjon. Uansett er de perifere bransjer som selger varer som er relativt "unyttig" i det store bildet, og de underlegges ikke de samme kravene til sannferdig markedsføring som legemidler eller airbags.

Vil man noen gang bli enig? Nei.
Vil man noen gang bli enig om å være uenig? Ja, kanskje for kortere perioder.

Lesestoff
ITU-R BS.1116, "Methods for the Subjective Assessment of Small Impairment in Audio Systems Including Multichannel Sound Systems", Geneva, Switzerland (1994).

Lipschitz, Stanley P., and Van der kooy, John, "The Great Debate: Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 29 No. 7/8, Jul/Aug 1981, pp. 482-491.

Toole, Floyd E., "Listening Tests - Turning Opinion Into Fact", Journal of the Audio Engineering Society, Vol. 30, No. 6, June 1982, pp. 431-445.

Toole, Floyd E., "The Subjective Measurements of Loudspeaker Sound Quality & Listener Performance", Journal of the Audio Engineering Society, Vol. 33, pp. 2-32 (1985 Jan/Feb)

Toole, Floyd E., and Olive, Sean E., "Hearing is Believing vs. Believing is Hearing: Blind vs. Sighted Tests, and Other Interesting Things", 97th AES Convention (San Francisco, Nov. 10-13, 1994), [3893 (H-5], 20 pages.

Toole, Floyd E., and Olive, Sean E., "The Modification of Timbre By Resonances: Perception & Measurement", Journal of the Audio Engineering Society, Vol 36, pp. 122-142 (1988 March).

AES journaler kan finnes her (det koster desverre penger)

Klikk for å utvide...

I en annen tråd ble følgende argumenter framsatt mot blindtester brukt til hifi-formål, og påstander ble framsatt om at de var uimotsagt og "atomiske bevis" på påstanden:

Kompleksiteten i det å skulle erindre noe som er spilt over et ukjent anlegg.

Kompleksiteten i det å skulle erindre noe som er spilt i et ukjent lytterom.

Kompleksiteten i det å skulle erindre ukjent musikk.

Sinsstemningen i øyeblikket.

Stress.

Selvsikkerhet.

Videre ble det påstått at enhver mulighet for at blindtester kan gi (feilaktig) null-resultat, altså å svikte i å påvise et fenomen er grunn nok til å forkaste blindtesting som metodikk. Dette tilsynelatende ut fra at en metodikk som er 99.99% sikker er ubrukelig, mens en metode som er 50% sikker er helt topp så lenge resultatet blir det man har bestemt seg for på forhånd. En forsker som jobbet slik ville ha mistet jobben. Forskning handler om å vurdere ulike former for innhenting av empiri, og å sammenstille dette i modeller som man kan enes om, å prøve å motbevise seg selv. Dersom man ikke stiller til jobben med åpent sinn så øker sannsynligheten for et feilaktig resultat.

Jeg har gitt uttrykk for at det er tilstrekkelig med 1 person som beviselig hører et fenomen som jeg på forhånd ikke tror at noen hører, før jeg kaster min tro på båten. Jeg ser ikke at den andre siden av debatten har ønske om å framstå med slik åpenhet, og undrer meg på hvorfor man fremstår med et ønske om å forstå "virkeligheten", men samtidig har bestemt seg for fasit før man velger test-metodikk.

-k

Vegardaase · 15.08.2007

Soundproof skrev:
Dette ser jeg frem til å delta i, på premissene du har fremsatt når det gjelder frekvens på bidrag og åpenhet overfor den vitenskapelige metoden.

I tråden som ble stengt ble det til slutt vanskelig å skjønne hvorfor blindtester ikke skulle gjelde som metode; videre var det også uklart om det var ren blindtest man diskuterte, eller om det var blindtest med ABX switching. Kanskje greit å få det avklart innen diskusjonen begynner.

Det virket som om enkelte debattanter var ukjente med metodisk testing, eller uvillige til å akseptere at disse metodene -- som har levert gyldige resultater på et stort antall andre felt -- kunne gjelde for lytting.

Og å skulle forfekte at fysiologiske bevis for at mennesker har dårlig musikkminne og lytteminne må vel presis være en god grunn for å skulle innføre metode i avprøving av lydstimuli overbrakt ved hjelp av komponenter man ønsker å vurdere effekten av?

Trådstyrer mente til slutt at han var tilhenger av subjektiv lytting. Jeg lar meg gjerne korrigere på dette punktet -- men blindtesting er da i aller høyeste grad subjektiv lytting, men utført slik at man forsøker å fokusere på den variabelen man ønsker å måle i testen - slik at utenforliggende elementer skal ha minst mulig innvirkning på resultatet.
Når man avgrenser muligheten for at ytre irrelevante stimuli skal påvirke resultatet (som at man kjenner merket på komponenten), så betyr ikke dette at lyttingen blir mindre subjektiv -- snarere tvert i mot. Den blir både subjektiv og presis, og det må da være ønskelig.

Uten å snakke for andre som deltok mener jeg også at det er bare av det gode om testen kan gjennomføres på kjent anlegg, i kjente omgivelser, med kjent musikk. Naturligvis blir det komplisert å skulle reise viden omkring og gjennomføre testen hjemme hos ulike hifi-entusiaster, men om det er hva som skal til så kan det helt sikkert ordnes. Av hensyn til testens holdbarhet er det viktig at man er enige om samme metode hvert enkelt sted, men musikktypene må gjerne være forskjellige. (Selv om jeg alt nå ser for meg innvendingen om at vedkommendes musikkvalg ikke var tilpasset akkurat den kabelens egenskaper. Men dette kan man ordne ved at man tester vedkommendes foretrukne kabel mot en kabel som testutfører tar med seg.)

Uansett - jeg tror det er lett å rote seg vekk i spissfindigheter her. Å skulle mene at sannsynligheten for at 0.2% feil i en blindtest er grunnlag for å avfeie blindtest som metode er merkelig. Sagt med andre ord, på områder i livet der det står liv på spill så er man villig til å akseptere langt større feilutslag, og likevel ta kritiske beslutninger på grunnlag av utfallet -- så dette argumentet blir mer enn søkt.

Den innbitte motstanden mot blindtest mener jeg skyldes at man ved slike tester tidligere har avslørt hvor lite holdbarhet det er i noen av de "magiske" egenskapene til hifi-komponenter -- og at dette truer en meget lukrativ inntektskilde for dem som selger slike. Av personlig erfaring vet jeg at det er ekstremt høye dekningsbidrag på tilleggskomponenter, og naturligvis er det gunstig for virksomheten å sitte med denne inntektsmuligheten.

I tillegg ligger det naturligvis en velværefaktor i det å ha kjøpt super high-end magi som man ikke skal se bort fra. Jeg har selv vært offer for denne, men etterhvert -- ved hjelp av empiri og utspørring av kyndige referansepersoner -- kunnet åpne meg for at en nøktern innfallsvinkel er klok om man vil ha best mulig lyd for pengene, i stedet for kostbar, innbilt lyd.

DIY_dude skrev:
Jeg har et spørsmål i forbindelse med lyttetester. Hvor stor treffprosent ville man forlangt i en slik test for å kunne konkludere med at det finnes en forskjell?

Lyttetesten linket til i en annen tråd på forumet her, gikk ut på å høre forskjell på to korte lydklipp avspilt med to sekunders mellomrom. Den normale feilprosenten lå på 30%. Da er det snakk om åpenbare tonale forskjeller i lydklippene. Hvis man i en kortvaring lyttetest må kunne forvente en så høy feilprosent, som følge av dårlig korttidshukommelse, vil det jo være umulig å trekke noen signifikante konklusjoner. Testen sier mer om hørselen enn om utstyret.

Noen tanker om dette?

nb skrev:
Det er ganske vanlig å operere med 95% intervall, dvs at det er kun 5% sannsynlig at resultatet er tilfeldig, men om formålet er å velte elektronikken og fysikken, så skal det nok en del til

Ellers enig i at slike tester sier mer om hørsel enn utstyr, den helt åpenbare konklusjonen å trekke er jo at testsubjektene ikke hører så godt som de liker å tro, men all den tid det virker som de på forhånd har bestemt seg for sine høreevner, så blir forklaringen søkt andre steder, ref f.eks den nå stengte "Blindtesttråden".

Greven skrev:
Min interesse for dette emnet baserer seg både på interesse for vitenskaplig tenkemåte og god lyd. Jeg tror at ved å fjerne åpenbart tull og håpløse kvasivitenskaplige effekter fra HiFi bransjen, ville alle vært tjent med bedre lyd fordi bransjen derfor vil fokusere på komponenter med faktisk lydforbedrende potensiale. For å oppnå dette tror jeg blindtester og ABX tester er et meget nyttig verktøy. Men, det er mulig jeg tar feil. Derfor ville reelle invendinger mot disse metodene øke forståelsen og kanskje føre bransjen fremover på sikt.

knutinh skrev:
DIY_dude :
Hvis du leser dokumentet i første post så ligger det en link til binominalfordelingen som kan brukes ved ABX-tester, men egentlig alle tester hvor du kan vurdere en svar-serie opp mot "å kaste mynt/kron", dvs med to svar-alternativ hvor ett er rett og ett er galt. Hvor mange "rette" som kreves avhenger av signifikansnivået, ofte krever man 95% signifikans, mao at det aktuelle resultatet bare ville skje i 5% av tilfellene hvis man "spilte terning" (mao at svarene er helt tifeldige og det ikke er noen forskjeller).

-k

DIY_dude skrev:
Her kommer et forsøk på et seriøst resonnement. Dette går ikke direkte på blindtester, men mer generelt på lyttetester.

Ved en lyttetest med rask bytting mellom korte lydklipp kan man, som tidligere antydet, forvente en treffprosent på 70 selv ved åpenbare forskjeller mellom lydklippene. Si at man så skal prøve en hypotese som går ut på at det er forskjell i lydkvalitet mellom to ulike cd-spillere. Forskjellene kan forventes å være subtile. Ved en feilprosent høyere 5 forkastes hypotesen. Vil ikke da testmetoden kunne regnes som uegnet til formålet?

Er det ikke bedre å kalibrere metoden med utstyr man vet det er forskjeller på, til man oppnår en treffprosent nærmere 100, og deretter benytte metoden til å teste ut utstyr med mindre forskjeller på? (Er det dette som er multivariat kalibrering?) Eller har jeg misforstått hele hensikten med disse testene?

Greven skrev:
Om store forskjeller ikke gir større utslag, sier det mer om hvor store disse forskjellene er, enn svakheter ved testen.

DIY_dude skrev:
Det betyr ikke nødvendigvis at testen ikke er bra, men det betyr helt klart at testen er uegnet til akkurat dette formålet. Testen er interessant med tanke på å se hvor dårlig "lydhukommelsen" er under gitte forhold, men jeg ville ikke trukket den videre til å gjelde for repetert lytting over lengre tid, ettersom vi ikke vet (eller gjør vi?) hvordan repetisjonen vil påvirke "lydhukommelsen".

Som ingeniør og teknisk interessert (altså ikke som religiøs audiofil) ville jeg helt klart ikke karakterisert denne testmetoden som god nok til å teste ulikheter mellom hifi-utstyr. Da er det bedre å holde seg til de målingene som allerede er standard. Jeg er ikke imot å lytte til utstyr i "blinde", og ser ingen grunn til at man må vite hva man lytter til. Det er dette med tidsperspektivet på kjappe lyttetester som jeg mener ikke er representativt i hifi-sammenheng.

atonal skrev:
Hei, du skal ha ros for oppsummeringsinnlegget, knutinh. Bør bli en sticky, evt. med noen modifikasjoner.

Mitt inntrykk er at hifi generelt handler like mye om selve anlegget, som det handler om lydkvalitet (high fidelity). Dette er nok mer eller mindre bevisst. Anlegget, eiergleden, er en faktor som veier tungt, men det kan være vanskelig å argumentere rasjonelt for noe av så følelsesmessig betydning, særlig på bakgrunn av komponenter som er teknologisk komplekse.
For flere er nok eiergleden innbakt i selve musikkopplevelsen, selv om det strengt tatt ikke behøver å være slik. ABX-tester kan være en trusel mot eierglede, fordi testing kan avsløre manglende sammenheng mellom komponenters kostnad og lydkvalitet. Hvis en manglende sammenheng blir bevist, risikerer man å bli blottlagt for å ha foretatt innkjøpsvalg det kan være vanskelig å argumentere for, noe som opplagt er truende for selvfølelse og selvbilde.
Hifi handler antagelig mye mer om psykologi og følelsenes logikk enn det som blir presentert som rasjonelle valg, om vi liker det eller ikke.

Vi mennesker er ikke mer kompliserte enn at vi liker å ha fine ting rundt oss, og hifi er en del av dette, uavhengig av rasjonell målemetodikk.

Mvh.

knutinh skrev:
DIY_dude skrev:

Her kommer et forsøk på et seriøst resonnement. Dette går ikke direkte på blindtester, men mer generelt på lyttetester.

Ved en lyttetest med rask bytting mellom korte lydklipp kan man, som tidligere antydet, forvente en treffprosent på 70 selv ved åpenbare forskjeller mellom lydklippene. Si at man så skal prøve en hypotese som går ut på at det er forskjell i lydkvalitet mellom to ulike cd-spillere. Forskjellene kan forventes å være subtile. Ved en feilprosent høyere 5 forkastes hypotesen. Vil ikke da testmetoden kunne regnes som uegnet til formålet?

Er det ikke bedre å kalibrere metoden med utstyr man vet det er forskjeller på, til man oppnår en treffprosent nærmere 100, og deretter benytte metoden til å teste ut utstyr med mindre forskjeller på? (Er det dette som er multivariat kalibrering?) Eller har jeg misforstått hele hensikten med disse testene?

Klikk for å utvide...

Først vil jeg takke for saklig kritikk av blindtesting. Det er akkurat hva vi trenger.

http://en.wikipedia.org/wiki/Null_hypothesis
"In statistics, a null hypothesis is a hypothesis set up to be nullified or refuted in order to support an alternative hypothesis. When used, the null hypothesis is presumed true until statistical evidence in the form of a hypothesis test indicates otherwise. In classical science, the null hypothesis is used to test differences in treatment and control groups, and the assumption at the outset of the experiment is that no difference exists between the two groups for the variable being compared."

Null-hypotesen (personen under test gjetter seg fram til svarene) regnes som motbevist i det øyeblikk testen viser med en gitt signifikans at svaret er lite sannsynlig med ren gjetting.

Hvis man ikke får et slikt svar er testen ikke-konklulsiv, "henlagt pga bevisets stilling".

Hvor har du det fra at man greier bare 70% score ved blindtesting av fenomener som er opplagt hørbare? Forumet på hydrogenaudio er fullt av rapporter om hørbar degradasjon fra mp3 som gir 19/20 eller 20/20 ved korte klipp.

Hva mener du egentlig med "kalibrering"? Er det i samme gate som kravet fra roysen om at man må bevise at blindtesten KAN gi positivt resultat selv om man tester på en fysisk virkelighet hvor negativ resultat er det "rette"?

DIY_dude skrev:

Det betyr ikke nødvendigvis at testen ikke er bra, men det betyr helt klart at testen er uegnet til akkurat dette formålet...

Klikk for å utvide...

Dette forstår jeg ikke helt. Hvis du skal måle en lengde med målebånd og målebåndet viser "bare" 2 cm, forkaster du da målebåndet fordi dette helt klart er uegnet til dette formålet?

Edit:
www.hydrogenaudio.org har følgende regel :
http://www.hydrogenaudio.org/forums/index.php?showtopic=3974
"8. All members that put forth a statement concerning subjective sound quality, must -- to the best of their ability -- provide objective support for their claims. Acceptable means of support are double blind listening tests (ABX or ABC/HR) demonstrating that the member can discern a difference perceptually, together with a test sample to allow others to reproduce their findings. Graphs, non-blind listening tests, waveform difference comparisons, and so on, are not acceptable means of providing support."

Eksempel på innlegg er her:
http://www.hydrogenaudio.org/forums/index.php?showtopic=28925
"Audibility of inverted polarity in real music, 9/10s and 10/10s reported
There were some questions a while ago as to if inverting the polarity of a signal was audible. After some discussion on head-fi, gaboo successfully ABX'd a polarity inversion. So far I'm completely unable to ABX his sample, but after poking around with another sample I was able to ABX a polarity inversion 10/10 in foobar."

Anbefaling fra AES når det gjelder subjektiv testing av høyttalere:
http://www.aes.org/publications/standards/courtesy.cfm?ID=24

"Abstract: This Standard is a set of recommendations for subjective evaluation of high-performance loudspeaker systems. It is believed that, for certain audio components including loudspeakers, subjective evaluation is a necessary adjunct to objective measurements. The strong influence of listening conditions, program material and of individual evaluators is recognized. This document seeks, therefore, to assist in avoiding testing errors rather than to attempt to establish a correct procedure. (20 pages)"

-k

DIY_dude skrev:
knutinh skrev:

Hvor har du det fra at man greier bare 70% score ved blindtesting av fenomener som er opplagt hørbare? Forumet på hydrogenaudio er fullt av rapporter om hørbar degradasjon fra mp3 som gir 19/20 eller 20/20 ved korte klipp.

Klikk for å utvide...

Her: http://www.hifisentralen.no/forum/index.php/topic,12609.0.html
Gjennomsnittet ligger på omlag 70 i treffprosent. Ser at enkelte musikere har helt oppe i 90%. Denne hørselstesten viser jo hvor vanskelig det er å høre om det er forskjell (eller ikke) på to nesten like lydklipp. I dette tilfellet burde det ikke vært tvil. Det er i alle fall en høyst målbar forskjell.

Jeg kjenner ikke til testene fra hydrogenaudio. Det høres jo interessant ut.

knutinh skrev:

Hvis du skal måle en lengde med målebånd og målebåndet viser "bare" 2 cm, forkaster du da målebåndet fordi dette helt klart er uegnet til dette formålet?

Klikk for å utvide...

Jeg synes denne sammeligningen var litt rar. Det blir mer nærliggende å si at "vi skal måle en lengde med en nøyaktighet på 1 mikrometer og bruker et vanlig målebånd". Da er selvfølgelig målebåndet uegnet til formålet, fordi det ikke gir mulighet for å skille så små forskjeller.

knutinh skrev:

Hva mener du egentlig med "kalibrering"? Er det i samme gate som kravet fra roysen om at man må bevise at blindtesten KAN gi positivt resultat selv om man tester på en fysisk virkelighet hvor negativ resultat er det "rette"?

Klikk for å utvide...

Jeg mener at man først må finne ut om testen KAN gi positivt resultat når man tester på en fysisk virkelighet hvor positivt resultat åpenlyst er "det rette". Tallene over tyder på at testen IKKE VIL gi positivt resultat selv om dette er "det rette". Dette alene bør være nok til å se at man må være svært forsiktige med å trekke konklusjoner ut ifra en slik test. I alle fall konklusjoner som går ut over det som gjelder hørselen.

Når jeg snakker om kalibrering, så mener jeg at konkrete målinger bør korreleres med "blind lytting" til det er tilfredsstillende sammenheng mellom fysiske målinger og lyttingen. Dette bør kunne gjøres med justering av klipplengde, repetisjon og tid mellom lyttinger. Deretter kan lyttetestingen benyttes til å avgjøre om det er signifikant forskjell i tilfeller der det ikke finnes andre gode målemetoder. Noen særlig annen nytte av testen klarer jeg ikke å se for meg, med mindre hensikten er å bevise at "hørselen er for dårlig til å høre forskjell på hifi-utstyr".

Vegardaase · 15.08.2007

Roysen skrev:
DIY_dude skrev:

Noen særlig annen nytte av testen klarer jeg ikke å se for meg, med mindre hensikten er å bevise at "hørselen er for dårlig til å høre forskjell på hifi-utstyr".

Klikk for å utvide...

Eventuellt til å bevise at den menneskelig hjerne ikke er i stand til å huske den detaljrikdommen som skal til for å identifisere slike ulikheter.

Mvh
Roysen

knutinh skrev:
DIY_dude skrev:

knutinh skrev:

Hvor har du det fra at man greier bare 70% score ved blindtesting av fenomener som er opplagt hørbare? Forumet på hydrogenaudio er fullt av rapporter om hørbar degradasjon fra mp3 som gir 19/20 eller 20/20 ved korte klipp.

Klikk for å utvide...

Her: http://www.hifisentralen.no/forum/index.php/topic,12609.0.html
Gjennomsnittet ligger på omlag 70 i treffprosent. Ser at enkelte musikere har helt oppe i 90%. Denne hørselstesten viser jo hvor vanskelig det er å høre om det er forskjell (eller ikke) på to nesten like lydklipp. I dette tilfellet burde det ikke vært tvil. Det er i alle fall en høyst målbar forskjell.

Klikk for å utvide...

Nå begår du (i mine øyne) tabben å anta at

1) Det SKAL være en hørbar forskjell

2) blindtesten gir ikke svaret man forventer ut fra 1,

3) Derfor må det være noe fundamentalt feil med blindtester.

Det som er rett er:

Det at man kan måle en forskjell er ikke et bevis på at mennesket kan høre forskjell.

Det at brukere rapporterer forskjeller fra "stua" er ikke et bevis på at mennesket kan høre forskjell (men det kan være en nyttig indikasjon)

"Denne hørselstesten viser jo hvor vanskelig det er å høre om det er forskjell (eller ikke) på to nesten like lydklipp."

Ikke sant? Det er akkurat det jeg hevder, mennesket er et notorisk upålitelig test-instrument. Likefullt er det mennesket som er "final judge" på hvor bra en audio-dippedutt fungerer, derfor må vi til syvende og sist utforme metoder som faktorerer oss inn.

Jeg kjenner ikke til testene fra hydrogenaudio. Det høres jo interessant ut.

Klikk for å utvide...

Det står informasjon om hydrogen audio testen lengre opp.

knutinh skrev:

Hvis du skal måle en lengde med målebånd og målebåndet viser "bare" 2 cm, forkaster du da målebåndet fordi dette helt klart er uegnet til dette formålet?

Klikk for å utvide...

Jeg synes denne sammeligningen var litt rar. Det blir mer nærliggende å si at "vi skal måle en lengde med en nøyaktighet på 1 mikrometer og bruker et vanlig målebånd". Da er selvfølgelig målebåndet uegnet til formålet, fordi det ikke gir mulighet for å skille så små forskjeller.

Klikk for å utvide...

La meg omformulere meg:
Hvis du skal måle en lengde som er ukjent, men som moren din sier er "omlag 10 cm", og målebåndet viser 2 cm...

Forkaster du da målebåndet som test-metode, eller begynner du å tvile på moren din sitt øyemål?

knutinh skrev:

Hva mener du egentlig med "kalibrering"? Er det i samme gate som kravet fra roysen om at man må bevise at blindtesten KAN gi positivt resultat selv om man tester på en fysisk virkelighet hvor negativ resultat er det "rette"?

Klikk for å utvide...

Jeg mener at man først må finne ut om testen KAN gi positivt resultat når man tester på en fysisk virkelighet hvor positivt resultat åpenlyst er "det rette". Tallene over tyder på at testen IKKE VIL gi positivt resultat selv om dette er "det rette". Dette alene bør være nok til å se at man må være svært forsiktige med å trekke konklusjoner ut ifra en slik test. I alle fall konklusjoner som går ut over det som gjelder hørselen.

Klikk for å utvide...

Blindtester kan ikke bevise fraværet av noe, kun nærværet. Jeg ser ikke at man må være forsiktige med å bruke blindtester så lenge man husker på dette.

At blindtester KAN gi positivt resultat i noen tilfeller er hevet over enhver tvil og jeg ser ikke hensikten med å debattere det.

Når jeg snakker om kalibrering, så mener jeg at konkrete målinger bør korreleres med "blind lytting" til det er tilfredsstillende sammenheng mellom fysiske målinger og lyttingen. Dette bør kunne gjøres med justering av klipplengde, repetisjon og tid mellom lyttinger. Deretter kan lyttetestingen benyttes til å avgjøre om det er signifikant forskjell i tilfeller der det ikke finnes andre gode målemetoder. Noen særlig annen nytte av testen klarer jeg ikke å se for meg, med mindre hensikten er å bevise at "hørselen er for dårlig til å høre forskjell på hifi-utstyr".

Klikk for å utvide...

Det siste kan uansett ikke bevises. Man kan henvise til et større eller mindre antall tester av bedre eller dårligere kvalitet som ikke klarte å påvise forskjellen. Hva leseren velger å konkludere ut fra det er ikke i mine hender.

Den store nytteverdien av blindtester er når man behandler komplekse fenomener hvor det ER målbar forskjell, men det er tvil om denne målbare forskjellen gir signifikant perseptuell forskjell. En godt utført og evt positiv blindtest vil da bevise (med en gitt signifikans) at "ja, lytterene hører forskjell". Dette er en unik egenskap ved blindtester som målinger, modeller og seende lytting ikke kan matche.

Den fremste kvaliteten ved blindtester er altså å motbevise eksisterende fysikk/audiologi-kunnskap og skeptikere (som meg). Jeg argumenterer altså sterkt for en metode som kan tenkes å vise med stor sikkerhet at jeg gjør store feil i min betraktning av verden.

-k

DIY_dude skrev:
Ok. Da skjønner jeg prinsippet. Den menneskelige svakheten skal tas med i testingen. Altså brukes ikke lyttetesten til å avgjøre hvorvidt det er forskjeller på utstyr, men til å avgjøre i hvilken grad mennesket er i stand til å oppfatte antatte/påståtte forskjeller. I så fall må vi forutsette at testmetodikken gjenspeiler den praktiske bruken av utstyret for å ha noen særlig relevans. I tilfellet med lytting til korte lydklipp med rask bytting, så vil jeg påstå at dette ikke gjenspeiler praktisk bruk i hifi-sammenheng. Her er det i tillegg grunn til å tro at det vil være vesentlige forskjeller ifra oppfattelsen av lyden og lydhukommelsen over lengre tids repetert lytting. (Denne antagelsen trekker jeg ut ifra erfaring som hobbymusiker, og kjennskap til hvordan repetisjon påvirker hukommelsen.)

knutinh skrev:

Nå begår du (i mine øyne) tabben å anta at

1) Det SKAL være en hørbar forskjell

2) blindtesten gir ikke svaret man forventer ut fra 1,

3) Derfor må det være noe fundamentalt feil med blindtester.

Klikk for å utvide...

For å fortsette fra forrige avsnitt. Jeg mener ikke at det SKAL være en hørbar forskjell. Jeg mener at når det finnes antagelser som tilsier at testen under de gitte forholdene gir pessimistiske resultater, så bør man i alle fall justere testparameterne og undersøke om andre forhold kan gi andre resultater, før man slår seg til ro med denne testmetodikken.

Jeg sier heller ikke at det er noe fundamentalt feil med blindtester. Det er vel strengt tatt en nødvendighet at man ikke skal kjenne til utseende eller pris på utstyret man tester. Det er derimot andre forhold (tidsperspektiv og repetisjon) som gjør at jeg blir kritisk til relevansen av en slik test i hifi-sammenheng. Det kan godt hende at korte lyttetester viser seg å være relevant for lengre tids lytting, men inntil dette er utprøvd så ville jeg ikke slått meg til ro med testmetodikken. Se på det som en utfordring og en oppfordring til de som har genuin interesse for temaet.

Utover dette har jeg ingen personlig interesse for hverken blindtester eller dyre kabler, og prøver å stille meg nøytral i hele debatten. Hvis jeg har uttrykt meg uklart noen steder så ber jeg leseren om å ikke tolke det på en negativ måte. Mine uttalelser er sett ut ifra et faglig perspektiv og ikke ut ifra interesse eller personlige holdninger.

Porcus skrev:
DIY_dude skrev:

Her kommer et forsøk på et seriøst resonnement. Dette går ikke direkte på blindtester, men mer generelt på lyttetester.

Ved en lyttetest med rask bytting mellom korte lydklipp kan man, som tidligere antydet, forvente en treffprosent på 70 selv ved åpenbare forskjeller mellom lydklippene. Si at man så skal prøve en hypotese som går ut på at det er forskjell i lydkvalitet mellom to ulike cd-spillere. Forskjellene kan forventes å være subtile. Ved en feilprosent høyere 5 forkastes hypotesen. Vil ikke da testmetoden kunne regnes som uegnet til formålet?

Klikk for å utvide...

Nei, du misforstår hva det regnes prosenter av. Vi snakker ikke om hvorvidt det er treffsikkerheten din er 70 eller 95 prosent , vi snakker om hvorvidt denne treffsikkerheten din er forskjellig fra 50 prosent. De 5 prosentene er ikke "din tillatte feilmargin i lyttesituasjonen", det er "statistikerens tillatte feilmargin overfor sin egen konklusjon".

Spørsmålet er: "hører du forskjell?"
Nullhypotesen er "nei".
Testmetoden er ABX-blindtesting, du skal identifisere X. Under nullhypotesen skal du ha en treffprosent på 50.
Nullhypotesen forkastes hvis den målte treffprosenten avviker så sterkt fra 50 at det neppe er tilfeldig. Dette "neppe" er det vi måler med et 95 prosent-konfidensintervall. (Jeg hopper over spørsmålet om hvorvidt man skal teste ensidig eller tosidig.)

Tenk deg et alternativt forsøk: du har en mynt som du lurer på om er fair (altså, gir den noe annet enn 50/50-sannsynlighet for mynt og kron?)
I utgangspunktet er det ikke noen grunn til å tro at det er bias i retning den ene eller andre siden. Nullhypotesen: p = 0,5.
Du kaster mynten mange ganger. Tenk deg at du kaster mynten 1000 ganger, og får kron 625 ganger. Mynten har en
"treffprosent på kron" på mye mindre enn 70 prosent, men fortsatt høy nok til å kunne fastslå at det er forskjell: Et 95 prosent-konfidensintervall vil være fra 59,5 til 69,5 prosent. Tolkning: vi kan med 95 prosent konfidens konludere at p ikke er utenfor dette intervallet -- som ikke inneholder 0,5 (nullhypotesen). Vi forkaster nullhypotesen.

Selv om mynten bare måler litt galt -- si, du får kron i 51 % av myntkastene -- så kan du fortsatt finne det ut ved bare å kaste mange nok ganger. For 95 prosent konfidens trenger du ca 10 000 myntkast.

For øvrig syns jeg argumenter om at man ikke klarer å høre forskjell i testoppsettet, er litt ... hva skal jeg si, de skyter seg selv i foten i et hifi-forum. Om jeg ikke kan høre forskjell, så har jeg i hvert fall etablert at de forskjellene som eventuelt finnes, ikke er så store at akkurat jeg kan høre dem -- og da er de ikke verd mine penger.

knutinh skrev:
DIY_dude skrev:

Porcus skrev:

Om jeg ikke kan høre forskjell, så har jeg i hvert fall etablert at de forskjellene som eventuelt finnes, ikke er så store at akkurat jeg kan høre dem -- og da er de ikke verd mine penger.

Klikk for å utvide...

Her peker du på en veldig viktig faktor som handler om personlige overbevisninger, og det er vel dette det står og faller på. Hvorvidt man velger å trekke resultater fra korte lyttesesjoner videre til å gjelde for daglig repetert "lydhukommelse" blir nesten opp til hver enkelt, inntil det gjøres en bedre undersøkelse av hvordan hukommelsen påvirkes i ulike settinger. Jeg har intrykk av at det for mange er de små forskjellene, som trer fram etter lengre tids lytting, som er vesentlig for hifi-interessen. For andre går det mer på raskt detekterbare kvaliteter, som "mengde" bass osv. Sånn sett blir disse korte lyttetestene interessante kun for noen av oss. Jeg tror også det er en utopi at blindtester vil kunne benyttes til å rydde opp i en skitten bransje, slik som noen har uttrykt i tidligere tråder.

Klikk for å utvide...

Grunnen til at korte klipp benyttes i blindtester er jo faktisk for å maksimalisere sjansen for deteksjon. Altså gjør man en urealistisk vri som går i "favør" av de som hevder at det ER forskjeller, bare fordi null-hypotesen gir så lite nyttig informasjon.

For eksempler på at lang lytting ikke bekrefter din tilsynelatende hypoese er det jo bare å se på ivar løkken sin test hvor lytterne fikk bruke veldig mye tid hjemme med en test-CD. Hvis det å sitte på stua og lytte til A og B gjør deg mer følsom for små forskjeller så kunne man kanskje forvente at blindtester med nettopp lang svitsjetid ville gi positivt resultat i større grad?

http://en.wikipedia.org/wiki/Echoic_memory

"Echoic Memory, the auditory version of sensory memory, refers to the phenomenon in which there is a brief mental echo that continues to sound after auditory stimuli has been heard. In comparison to sensory and iconic memory, echoic memory is thought to last a little longer, for upwards of about three or four seconds. Due to its short span, echoic memory is a type of short term memory as the echoic memories are temporal and last only for a brief period of time. A simple example of working echoic memory is having a friend recite a list of numbers, and then suddenly stopping, asking you to repeat the last four numbers. To try to find the answer to the question, you have to replay the numbers back to yourself in your mind as you heard them. Since Echoic memory lasts for a few seconds, if there was no pause between the time your friend stopped reciting the list to the time where he asked you to repeat the last digits, then your echoic memory would be able to pick up the last few numbers and recite them back quite accurately. However, if there was a pause between the time he stopped counting to the time he asked you to repeat the numbers, your recall would not be as high because the numbers have left your echoic memory (Brown, 2001).
"

http://en.wikipedia.org/wiki/Short_term_memory
"Short-term memory, sometimes referred to as "primary," "working," or "active" memory, is that part of memory which is said to be able to hold a small amount of information (between 7±2 elements such as digits or words) for about 20 seconds. This can be contrasted to long-term memory, in which a seemingly unlimited amount of information is stored indefinitely. It can be described as the capacity (or capacities) for holding in mind, in an active, highly available state, a small amount of information. The information held in short-term memory may be: recently processed sensory input; items recently retrieved from long-term memory; or the result of recent mental processing, although that is more generally related to the concept of working memory."

Jeg er overrasket over hvor bra denne tråden har fungert så lenge man ikke mener at postingsfrekvens og trådlengde er en kvalitets-parameter for debatter. Muligens er det en indikator både til meg selv og andre om at "1 posting pr tråd pr dag pr deltaker" er en mekanisme som kjøler ned gemyttene og gir mer saklig diskusjon?

-k

Vegardaase · 15.08.2007

Etter dette ble tråden benyttet til å snakke om en annen konkret blindtest. Greit nok, men det ødelegger strukturen synes jeg.

Er det bare jeg som synes dette burde være en oppgave for moderatorene?

JackX · 15.08.2007

God lesning om noen er interessert

Joda, kvintessen av tråden du har sakset fra var interessant. Men jeg tror det du har gjort skal få stå 'uimotsagt' her, så kan den som vil dra nytten av ekstraktet.
For øvrig er det - som du også antyder - moderatorene som skal luke og stelle i hifi-bedet vårt ;D
Herved er mod.arbeidet avsluttet. I denne tråden ivf.

mvh

JackX

Blindtester (igjen) revidert

Vegardaase

Hi-Fi freak

Vegardaase

Hi-Fi freak

Vegardaase

Hi-Fi freak

Vegardaase

Hi-Fi freak

JackX

Hi-Fi freak