"Seende" VS "blind" lytting?

TrompetN · 28.11.2012

Vitenskapelig sett skal man ha 13 av 13 hvis man er en lytter for å vitenskapelig dokumentere forskjeller.
11 av 13 av to personer samtidig er godt nok for en vitenskapelig dokumentasjon.

Jeg har aldri sett at de har "tvil" som et option i ABXtester og jeg har nevnt det som en av svakhetene til at disse testene blir for grovmaskete for blandt annet kabelforskjeller til at man kan nå et godt nok resultat.

Det er en av grunnene til at jeg fra starten av testen har vært åpen på at jeg ikke vil la tvilsresultater telle for å gjøre testen mer finmasket. Det er denne testen et ok eksempel på. Hvis jeg hadde vært nødt til å tippe når jeg var i tvil ville det vært et resultat HELT på kanten, mens når jeg ikke tipper når jeg er i tvil blir testresultatet positiv.

Jeg ser ingen logisk svakhet ved å ikke la tvilsrundene telle.

Det er en VELDIG stor forskjell å gjøre seg opp en mening om man er i tvil eller ikke FØR eller ETTER man har sjekket hvilken kabel som står i.

vredensgnag · 28.11.2012

TrompetN skrev:
Du forsøker å så tvil i resultatet på testen min gang på gang (TUSEN TAKK FOR DET!!) uten et eneste logisk resonoment på hvorfor det skal ha innvirkning på resultatet.

Neida, jeg forsøker ikke å så tvil om ditt resultat, men jeg tillater meg å kommentere at du ikke har noen utgangshypotese som du tester, at det du mener å trekke ut fra resultatet er både selvmotsigende og vagt, og at du er dogmatisk anlagt i hvordan du kommenterer både forløp og resultat. Det mangler stringens og metode, samtidig som du gjør utledninger (som at det nå blir lettere å lese Fidelity) som er underlige.

Og siden du selv var den som tok opp Fidelity, tillot jeg meg å vise til bladets omtale av kabelen, som altså heter Musiclink Ultra og som er å få i RCA og Balansert versjoner. Testpanelet hører meget distinkte effekter, mildt sagt i et omfang og med valører som må gjøre det usedvanlig enkelt å identifisere denne kabelen nærmest mot hva som helst.
Det åpner for spørsmål om hvorfor du selv hadde større vansker med å skjelne din Musiclink Ultra fra den andre kabelen du bruker, som du er usikker på opprinnelsen til, såvidt jeg forstår.

Når du gjør dette i neste omgang vil jeg anbefale at du tydelig identifiserer kablene du bruker, at du studerer dem for ev. brekkasje og egnethet i ditt anlegg, og at du beskriver fremgangsmåten i detalj for deg selv, slik at du følger denne stringent under hele gjennomføringen.
Resultatet må gjerne tolkes vidt og bredt som understøttelse for mye. Du nevner ABX som viser til svakheten ved ABX; at seende lytteinntrykk er identisk med blindt; at vesentlige effekter, små og betydningsfulle, først viser seg etter lang tids lytting; at det nå er blitt lettere å lese Fidelity; at veldig mange blindtester er dårlig gjennomført fordi de viser nullresultat, osv.

Det er enda uklart for meg hva formålet med din test var/er.

TrompetN · 28.11.2012

vredensgnag skrev:
TrompetN skrev:

Du forsøker å så tvil i resultatet på testen min gang på gang (TUSEN TAKK FOR DET!!) uten et eneste logisk resonoment på hvorfor det skal ha innvirkning på resultatet.

Klikk for å utvide...

Neida, jeg forsøker ikke å så tvil om ditt resultat, men jeg tillater meg å kommentere at du ikke har noen utgangshypotese som du tester, at det du mener å trekke ut fra resultatet er både selvmotsigende og vagt, og at du er dogmatisk anlagt i hvordan du kommenterer både forløp og resultat. Det mangler stringens og metode, samtidig som du gjør utledninger (som at det nå blir lettere å lese Fidelity) som er underlige.

Og siden du selv var den som tok opp Fidelity, som nå er blitt lettere å lese, tillot jeg meg å vise til bladets omtale av kabelen, som altså heter Musiclink Ultra og som er å få i RCA og Balansert versjoner. Testpanelet hører meget distinkte effekter, mildt sagt i et omfang og med valører som må gjøre det usedvanlig enkelt å identifisere denne kabelen nærmest mot hva som helst.
Det åpner for spørsmål om hvorfor du selv hadde større vansker med å skjelne din Musiclink Ultra fra den andre kabelen du bruker, som du er usikker på opprinnelsen til, såvidt jeg forstår.

Når du gjør dette i neste omgang vil jeg anbefale at du tydelig identifiserer kablene du bruker, at du studerer dem for ev. brekkasje og egnethet i ditt anlegg, og at du beskriver fremgangsmåten i detalj for deg selv, slik at du følger denne stringent under hele gjennomføringen.
Resultatet må gjerne tolkes vidt og bredt som understøttelse for mye. Du nevner ABX som viser til svakheten ved ABX; at seende lytteinntrykk er identisk med blindt; at vesentlige effekter, små og betydningsfulle, først viser seg etter lang tids lytting; at det nå er blitt lettere å lese Fidelity; at veldig mange blindtester er dårlig gjennomført fordi de viser nullresultat, osv.

Det er enda uklart for meg hva formålet med din test var/er.

Ok.

Da er vi tilbake på samme planet.

Jeg er enig i at det at jeg sluttet med A-B lytting underveis i testen ikke var planlagt før jeg gikk i gang.
Jeg konkluderte med at dette ikke hadde noen annen innvirkning enn at det ville være vanskeligere for meg å høre forskjell og at det kanskje ville bli flere tvilsrunder, noe som jeg ikke så som betydelig i forhold til testens resultat.

For meg var testen en prøve om jeg hører det samme blindt som ublindt, som jeg tidligere ikke har fått til i blindtester. Det er langt lettere å identifisere kabler seende enn blindt, men når hjernen først har skjønt hvilken kabel som spiller så blir opplevelsen den samme.
Min personlige konklusjon er at forskjellene oppleves mye større når man lytter seende enn ved repiterende blindtesting og at det ikke er det at man ser hva som spiller som skaper forventningsbiaset.

Det var mitt prosjekt. Hvordan dere tolker at en positiv "modifisert" blindtest av kabler som jeg ikke hører forskjell på ved bruk av vitenskapelige gangbare metoder får være opp til hver enkelt.

Noen vil tolke dette som at forskjellene er så små at de er ubetydelige å bruke penger på fordi det er sanseinntrykkene som natur som forsterker inntrykkene, mens andre vil tolke det motsatt. Fritt valg.

Jeg synes dette er en viktig sak å ha bevissthet rundt når man har gode lydopplevelser som hobby. Så vidt jeg kan se så er jeg den eneste som har dokumentert og forklarer hvorfor små tekniske forskjeller kan oppleves så store som vi gjør. Det har vært et mysterium for meg i mange år, men ikke lengre.

Christian D · 28.11.2012

Det er også viktig å understreke at selv om et resultat er statistisk signifikant ikke nødvendigvis betyr at det er sant. Foruten tilfeldigheter (beskrevet av f. eks p-verdi) har man også systematiske skjevheter. Av den grunn ville også jeg ha foretrukket at alle resultatene var med, også de rundene hvor du var usikker. Grunnen til dette er at "randomiseringen" av hvilken kabel som er A og hvilken som er B muligens kan påvirke resultatet, og ved å holde tilbake noen av resultatene kan du få en systematisk skjevhet i resultatene. En analogi: hvis jeg kunne holde tilbake 50% av resultatene fra en serie med myntkast kunne jeg ha overbevist dere om at mynten kun hadde en side. Hvis du skal gjenta forsøket senere ville jeg derfor ikke valgt å overse "usikre" tester. I tillegg ville jeg ha klart definert et antall runder med ABX som kjøres og forholdt meg til det antallet.

Uansett eventuelle svakheter i testoppsettet er det også for meg vanskelig å se at du kan rettferdiggjøre din konklusjon ut ifra resultatene. Dette ser jeg også flere andre har kommentert utfyllende. At seende tester introduserer bias er i seg selv godt dokumentert, men man kan også trekke paralleller til annen forskning på mennesker. Det er jo ikke fordi man ønsker å være vrang eller synes det er spesielt morsomt å gjøre dobbeltblinde, randomiserte studier i for eksempel medisinsk forskning. Det er bred enighet om at "blinding" er viktig for unngå bias, spesielt når man ser på subjektive endepunkt. Og opplevelse/vurdering av lydkvalitet - det er subjektivt. Blinde tester er veien å gå for å få de sikreste resultatene. Men det kan hende at standard ABX protokoll kanskje ikke er så sensitiv for å påvise små forskjeller i lydkvalitet.

nb · 28.11.2012

TrompetN skrev:
Vitenskapelig sett skal man ha 13 av 13 hvis man er en lytter for å vitenskapelig dokumentere forskjeller.
11 av 13 av to personer samtidig er godt nok for en vitenskapelig dokumentasjon.

Dette skjønner jeg ikke - det avnhenger jo kun av hvilket konfidensintervall man velger å legge seg på og der er det jo ting som er vanlig å bruke (5%, 1% osv) men det er jo ingen lov som tilsier at man må ha så og så mange personer og/eller så og så mange riktige, men det går litt under sunn forsøksdesign.

Innvendingene som kommer, som jeg opplever at du ikke helt skjønner, er at du (og andre) trekker konklusjoner utfra denne testen det ikke finnes noe grunnlag for å trekke. Du har funnet ut at det funker bedre for deg med lengre strekk og få repetisjoner etter hverandre enn kjapp swiching og mange reps på kort tid, det er forsåvidt et greit funn. Ditto at du blindt klarer å gjenskape noe du hører seende - ikke dårlig i seg selv i denne hobbyen, skal sies (men du har tross alt kun testet en eneklt ting) Særlig mye mer enn det er det vanskelig å si utfra det du har gjort. Som du vet er det langfra sikkert at du ville ha fått samme resultat med andre kabler eller annet utstyr før og etter, ei heller at "hvemsomhelst" annen som regner seg som en flink lytter ville klart det samme. Og til slutt står man igjen med noen opplagte metodefeller som at du av en eller annen grunn kunne få en "hunch" om hvilken som var tilkoblet. Uten at jeg på noen måte insinuerer at så er tilfelle så er det fortsatt en mulighet som ikke kan ses bort fra.

TrompetN · 28.11.2012

Christian D skrev:
Har du lest hele tråden?
Det er også viktig å understreke at selv om et resultat er statistisk signifikant ikke nødvendigvis betyr at det er sant. Foruten tilfeldigheter (beskrevet av f. eks p-verdi) har man også systematiske skjevheter.
?
Av den grunn ville også jeg ha foretrukket at alle resultatene var med, også de rundene hvor du var usikker. De er da også med bortsett fra to runder på slutten hvor jeg likevel tippet riktig.
Grunnen til dette er at "randomiseringen" av hvilken kabel som er A og hvilken som er B muligens kan påvirke resultatet, og ved å holde tilbake noen av resultatene kan du få en systematisk skjevhet i resultatene.
En analogi: hvis jeg kunne holde tilbake 50% av resultatene fra en serie med myntkast kunne jeg ha overbevist dere om at mynten kun hadde en side.
Hvordan mener du at det eksemplet har noen relevans i forhold til testen? Jeg har ikke holdt tilbake noen resultater. Hvis mynteksemplet ditt skulle vært gjeldende måtte du ha tatt valget om å vise mynten eller ikke før du hadde sett på den.
Hvis du skal gjenta forsøket senere ville jeg derfor ikke valgt å overse "usikre" tester. I tillegg ville jeg ha klart definert et antall runder med ABX som kjøres og forholdt meg til det antallet.

Uansett eventuelle svakheter i testoppsettet er det også for meg vanskelig å se at du kan rettferdiggjøre din konklusjon ut ifra resultatene. Dette ser jeg også flere andre har kommentert utfyllende. At seende tester introduserer bias er i seg selv godt dokumentert, men man kan også trekke paralleller til annen forskning på mennesker. Det er jo ikke fordi man ønsker å være vrang eller synes det er spesielt morsomt at gjør dobbeltblinde, randomiserte studier i for eksempel medisinsk forskning. Det er bred enighet om at "blinding" er viktig for unngå bias, spesielt når man ser på subjektive endepunkt. Og opplevelse/vurdering av lydkvalitet - det er subjektivt. Blinde tester er veien å gå for å få de sikreste resultatene. Men det kan hende at standard ABX protokoll kanskje ikke er så sensitiv for å påvise små forskjeller i lydkvalitet.
Jeg har forklart hva jeg mener rundt dette i detalj mange ganger og kan ikke gjøre det igjen idag. Noen blindtester tar ikke med psykoopplevelsen av lytteinntrykkene, mens min test gjør det.
En blindtest som skreller vekk denne psykoopplevelsen av lyttingen er ikke relevant for de fleste av oss.
Men selvfølgelig kjemperelevant for de som utvikler komponenter. De trenger begge typer tester for å utvikle gode produkter.
Noe av utfordringen er at det er flere amerikanske gurer som sprer budskapet om at disse switchtestene er relevant for oss. Det er etter min mening helt feil.

....

TrompetN · 28.11.2012

nb skrev:
TrompetN skrev:

Vitenskapelig sett skal man ha 13 av 13 hvis man er en lytter for å vitenskapelig dokumentere forskjeller.
11 av 13 av to personer samtidig er godt nok for en vitenskapelig dokumentasjon.

Klikk for å utvide...

Og til slutt står man igjen med noen opplagte metodefeller som at du av en eller annen grunn kunne få en "hunch" om hvilken som var tilkoblet. Uten at jeg på noen måte insinuerer at så er tilfelle så er det fortsatt en mulighet som ikke kan ses bort fra.

Forklar konkret.

nb · 28.11.2012

TrompetN skrev:
Forklar konkret.

Den mest banale er tegn eller indisier på hva som er koblet i en eller annen form. Det er som nevnt fullt mulig at ingen slike var til stede.
Jeg skjønner for øvrig ikke hva poenget med det røde trynet er - dette er en diskusjon rundt testen din, og da må det vel være lov å diskutere den?
Jeg har heller ikke sagt at det er noen slike, bare at det ikke er en umuliget. Du må gjerne være uenig i den observasjonen uten at jeg synest det er veldig hensiktsmessig.

musicman · 28.11.2012

Du må være verdens mest tålmodige mann, Trompetnerd.

Testen din ser nå i ettertid ut til å bli ett gedigent kjøttbein som enkellte må gnage og gnage på.

Forøvrig er jeg brennsikker på at flertallet her inne sitter med lignende erfaringer som deg, enten det er snakk om kabler eller komponenter.

Nok en gang, takk for testen din og ikke minst måten du beskriver prosessen underveis.

Mvh

Dazed · 28.11.2012

musicman skrev:
Du må være verdens mest tålmodige mann, Trompetnerd.

Testen din ser nå i ettertid ut til å bli ett gedigent kjøttbein som enkellte må gnage og gnage på.

Minner om hva TrompetN ønsket med denne tråden:

TrompetN skrev:
-Gjennomført "positiv?" blindtest av kabler. Diskusjon rundt den.

-Diskusjon rundt "seende" vs "blind" lytting.

Hva mener du er problemet med diskusjonen, egentlig?

nb · 28.11.2012

musicman skrev:
Forøvrig er jeg brennsikker på at flertallet her inne sitter med lignende erfaringer som deg, enten det er snakk om kabler eller komponenter.

Jeg er brennsikker på at knapt noen har gjennomført noe ala det Trompeten har gjennomført.
Det er som sagt så langt jeg kan se ingen som betviler resultatet hans, men det er noen som synest konklusjonene som dras er vel vidløftige. Du må gjerne være uenig i det, men dette er nå en gang en diskusjon rundt testeen til Trompenten og diskusjonen er initiert av han selv, så da må det vel være lov å diskutere den?

Rent logisk - om man skal trekke like vidøftige konkulsjoner fra denne som noen gjør så må man jo ha lov til å trekke like vidløftige konklusjoner fra alle som ikke har klart noe i nærheten av det Trompeten har gjort. Ingen av delene er riktig, men det bryr du deg kanskje ikke så mye om?

vredensgnag · 28.11.2012

Jeg skjønner ikke tankerekken.

Fordi man er overbevist om at det er forskjeller på passive komponenters signaleffekt, må alle ABX-tester som ikke viser slike forskjeller være feilaktig gjennomført.

Derfor gjennomfører man en ABX-test for å vise til at man kan identifisere forskjeller.

Til denne bruker man en signalkabel med påmonterte bokser vs. en signalkabel man ikke kjenner opprinnelsen til.

Resultatet brukes til å mer eller mindre tilsidesette alle studier og undersøkelser som er gjort på området, samt levere en rekke temmelig utfordrende påstander omkring lyttemodus, lyttelengde, lyttetilpasning og konsekvenser av denne nye erkjennelsen. Utfordrende fordi de imøtegår etablert erfaring på området omtrent 180 grader, uten at man er villig til å diskutere belegget for slik imøtegåelse, det skal kun aksepteres.

I tillegg altså dette momentet at det handler om en kabel som Fidelitys testpanel har hørt utrolige egenskaper gjennom, mens testgjennomfører til tider har hatt behov for meget lange lyttestrekk og protokolljusteringer for å nå frem til sitt resultat, som bygger på et lite fravær av tilsløring ved bruk av den ene kabelen.
Sammenlign det med disse utsagnene:

Håkon: Denne er minst på høyde med referansekabelen med enormt rom og nydelig instrumentklang. Organisert og elegant , dynamisk og med veldig bra dypbass. Og så lettfly- tende og glatt i lyden uten mothaker av noe slag. Helt på høyde med nr. 4 (Bertram) på det aller meste utenom størrelse som bare er XL, ikke XXL som på denne.
Jan: Glimrende mikrodetaljering, ingen sløring og presise og særde-
les ryddige transienter uten flising. Ikke den som graver dypest, kanskje, men særdeles ryddig og med veldig troverdig presentasjon av artistene. Strålende dynamisk tross et klang- messig litt tilbakelent lydbilde. I mine øre låter den enda bedre enn nr. 4.
Anders: God utsikt gjennom et stort panoramavindu med betydelig innsikt til musikere og artister i en troverdig akustisk setting. Rommet er simpelthen fabelaktig flott og nær- værende. Samtidig er lyden frisk og velopplagt med krisp diskant, men kanskje litt for mye fres i cresendo- ene? Men nestbest så langt etter min smak.
Trond: Mørk klangbalanse, men like- vel med masser av luft mellom stem- mer og instrumenter i et stort og presist rom. Her er både drama og ro og en fenomenal oppløsning, pluss en krisp topp som kan bli en smule heftig. Tror bare kabel nummer 4 er ”bedre” enn denne her, i hvert fall så langt...

nb · 28.11.2012

Les foregående avsnitt, men med følgende endringer:

Håkon: Denne er minst på høyde med referansehøyttaleren med enormt rom og nydelig instrumentklang. Organisert og elegant , dynamisk og med veldig bra dypbass. Og så lettflytende og glatt i lyden uten mothaker av noe slag. Helt på høyde med nr. 4 på det aller meste utenom størrelse som bare er XL, ikke XXL som på denne.

Jan: Glimrende mikrodetaljering, ingen sløring og presise og særdeles ryddige transienter uten flising. Ikke den som graver dypest, kanskje, men særdeles ryddig og med veldig troverdig presentasjon av artistene. Strålende dynamisk tross et klangmessig litt tilbakelent lydbilde. I mine øre låter den enda bedre enn nr. 4.

Anders: God utsikt gjennom et stort panoramavindu med betydelig innsikt til musikere og artister i en troverdig akustisk setting. Rommet er simpelthen fabelaktig flott og nærværende. Samtidig er lyden frisk og velopplagt med krisp diskant, men kanskje litt for mye fres i cresendoene? Men nestbest så langt etter min smak.

Trond: Mørk klangbalanse, men likevel med masser av luft mellom stemmer og instrumenter i et stort og presist rom. Her er både drama og ro og en fenomenal oppløsning, pluss en krisp topp som kan bli en smule heftig. Tror bare høyttaler nummer 4 er ”bedre” enn denne her, i hvert fall så langt...

OAlex · 28.11.2012

vredensgnag skrev:
...
I tillegg altså dette momentet at det handler om en kabel som Fidelitys testpanel har hørt utrolige egenskaper gjennom, mens testgjennomfører til tider har hatt behov for meget lange lyttestrekk og protokolljusteringer for å nå frem til sitt resultat, som bygger på et lite fravær av tilsløring ved bruk av den ene kabelen.

Dette viser jo at blindtesting er ubrukelig siden kabelen faktisk har utrolig egenskaper, bevist gjennom testen i Fidelity.

Edit: Hehe..

TrompetN · 28.11.2012

nb skrev:
TrompetN skrev:

Forklar konkret.

Klikk for å utvide...

Den mest banale er tegn eller indisier på hva som er koblet i en eller annen form. Det er som nevnt fullt mulig at ingen slike var til stede.
Jeg skjønner for øvrig ikke hva poenget med det røde trynet er - dette er en diskusjon rundt testen din, og da må det vel være lov å diskutere den?
Jeg har heller ikke sagt at det er noen slike, bare at det ikke er en umuliget. Du må gjerne være uenig i den observasjonen uten at jeg synest det er veldig hensiktsmessig.

Det røde trynet var bare et tegn på at repeterende indisier bør fra nå av konkretiseres ettersom de er tilbakevis tidligere.
Jeg er sjelden sikker på noe her i livet, men dere får tro meg på at jeg ikke fikk "hjelp" av kona til å avsløre hvilken kabel som satt i. Der er jeg 100% sikker.
Det med tvilstilfellene er interessant nok hvis det kommer et konkret ankepunkt.

Det er mange som har fanget opp dette ankepunktet fra Vredens som det til nå etter min mening har kommet noe praktisk ut av. Det vil ikke ha noen praktisk negativ funksjon på resultatet.

Dette er blitt repetert så mange ganger at det svekker testen. Det irriterer meg.

BX som er en meget oppegående person på dette punktet, som nok har testet og simulert mer enn noen annen i denne tråden kom med råd i tråden min underveis at jeg måtte passe på at jeg ikke lyttet for konkret og ikke måtte la tvilsrunder telle. Da hadde han ikke fått med seg mine poeng, men mente det samme.

Det som er det største ankepunktet i testen etter min mening er resultatet. 11 av 12 er ikke godt nok resultat. Det at jeg ikke har hatt et vitne er et mye større ankepunkt enn det igjen.
Derfor kan aldri denne testen dokumentere noe som helst og derfor er det frustrerende med repeterende aspekter som ikke har noen praktisk betydning for resultatet.

To ganger 11 av 13 i samme test er forresten et sterkere resultat enn En ganger 13.

TrompetN · 28.11.2012

musicman skrev:
Du må være verdens mest tålmodige mann, Trompetnerd.

Testen din ser nå i ettertid ut til å bli ett gedigent kjøttbein som enkellte må gnage og gnage på.

Forøvrig er jeg brennsikker på at flertallet her inne sitter med lignende erfaringer som deg, enten det er snakk om kabler eller komponenter.

Nok en gang, takk for testen din og ikke minst måten du beskriver prosessen underveis.

Mvh

Takk for tilbakemelding!

At jeg er tålmodig har jeg hørt hele livet fra alle rundt meg, så det kan kanskje være noe der.

TrompetN · 28.11.2012

Dazed skrev:
musicman skrev:

Du må være verdens mest tålmodige mann, Trompetnerd.

Testen din ser nå i ettertid ut til å bli ett gedigent kjøttbein som enkellte må gnage og gnage på.

Klikk for å utvide...

Minner om hva TrompetN ønsket med denne tråden:

TrompetN skrev:

-Gjennomført "positiv?" blindtest av kabler. Diskusjon rundt den.

-Diskusjon rundt "seende" vs "blind" lytting.

Klikk for å utvide...

Hva mener du er problemet med diskusjonen, egentlig?

Takk!

Jeg ønsker en konstruktiv diskusjon.

For meg så har de siste sidene styrt unna denne ved insigelser som ikke er praktisk eller konkret rettet.
For hver tvil man sår så svekker det testen. Derfor tar jeg meg tid til å svare på alt.

Siden det er lite nytt under solen om testens troverdighet og konklusjon kan vi kanskje bevege oss videre til trådens store tema.

Hva er forskjellene mellom "seende og blind" lytting?

TrompetN · 28.11.2012

nb skrev:
musicman skrev:

Forøvrig er jeg brennsikker på at flertallet her inne sitter med lignende erfaringer som deg, enten det er snakk om kabler eller komponenter.

Klikk for å utvide...

Jeg er brennsikker på at knapt noen har gjennomført noe ala det Trompeten har gjennomført.
Det er som sagt så langt jeg kan se ingen som betviler resultatet hans, men det er noen som synest konklusjonene som dras er vel vidløftige. Du må gjerne være uenig i det, men dette er nå en gang en diskusjon rundt testeen til Trompenten og diskusjonen er initiert av han selv, så da må det vel være lov å diskutere den?

Rent logisk - om man skal trekke like vidøftige konkulsjoner fra denne som noen gjør så må man jo ha lov til å trekke like vidløftige konklusjoner fra alle som ikke har klart noe i nærheten av det Trompeten har gjort. Ingen av delene er riktig, men det bryr du deg kanskje ikke så mye om?

Takker for tilitten!

Det som er prestasjonen ved testen er etter min mening at jeg har funnet ut hvorfor korte blindtester oppleves så forskjellig fra vanlig lytting.
Siden jeg sannsynligvis har hørt forskjeller på det komponentet som har minst forskjell kan man jo trekke noen konklusjoner.

Men du har helt rett. Ingen fasit er fremlagt noe sted her, så det er bare å trekke konklusjoner selv.
Kabeltråder er et godt eksempel på hvordan dette blir brukt i motsatt retning. Ingen fasit, men man trekker konklusjoner selv.

Dazed · 28.11.2012

Jeg tror det er viktig at du prøver å ikke se innsigelser og ankepunkter som at folk prøver å "så tvil", "svekke testen" eller rett og slett å ødelegge for deg, men at du ser det som tips om hvordan disse usikkerhetsmomentene kan elimineres nest gang, og dermed hjelpe til å gjøre testen mer "gyldig" som dokumentasjon og brukbar som faktisk dokumentasjon av funnene.

Jeg tror f.eks. ikke nb mente du hadde jukset vha. kona, men at det faktum at ingen andre enn deg kan vite det med sikkerhet, gjør at testen blir mindre gyldig for andre. Ikke at du har ment at den skulle være det, men hvis man skal trekke generelle konklusjoner basert på resultatene, ville det være en fordel at alt var gjort "riktig", slik at ingen kunne kritisere metoden i ettertid.

Noen av reaksjonene på de siste par sidene minner mer og mer om de vanlige "stritte med piggene"-ryggmargsrefleksene som gjerne kommer når "skeptikerne"/"the usual suspects" skal "tre meningene sine nedover hodene på og ødelegge hobbyen for" de rettroende. Det er trist. Dette har vært en ganske konstruktiv tråd til nå, så vær så snill å ikke ta motargumentene i diskusjonen du selv startet så personlig.

Christian D · 28.11.2012

TrompetN skrev:
Christian D skrev:

Har du lest hele tråden?
Ja

Det er også viktig å understreke at selv om et resultat er statistisk signifikant ikke nødvendigvis betyr at det er sant. Foruten tilfeldigheter (beskrevet av f. eks p-verdi) har man også systematiske skjevheter.
?
Systematiske skjevheter (feil) som kan introdusere bias. Med andre ord andre feilkilder.

Av den grunn ville også jeg ha foretrukket at alle resultatene var med, også de rundene hvor du var usikker. De er da også med bortsett fra to runder på slutten hvor jeg likevel tippet riktig.
Det har jeg fått med meg. Og hvis du legger til de du tippet feil på blir det fremdeles statistisk signifikant, litt avhengig av hvilket signifikantsnivå du legger deg på. Grensen bør settes før man gjennomfører forsøket.

Grunnen til dette er at "randomiseringen" av hvilken kabel som er A og hvilken som er B muligens kan påvirke resultatet, og ved å holde tilbake noen av resultatene kan du få en systematisk skjevhet i resultatene.
En analogi: hvis jeg kunne holde tilbake 50% av resultatene fra en serie med myntkast kunne jeg ha overbevist dere om at mynten kun hadde en side.
Hvordan mener du at det eksemplet har noen relevans i forhold til testen? Jeg har ikke holdt tilbake noen resultater. Hvis mynteksemplet ditt skulle vært gjeldende måtte du ha tatt valget om å vise mynten eller ikke før du hadde sett på den.
Det er mulig analogien ikke helt holder vann, enig i det. Uansett mener jeg at du hadde tjent på å ikke ha slike forutsetninger med i forsøket ditt. Det kan svekke troverdigheten til resultatet fordi det finnes muligheter for at en slik forutsetning kan introdusere bias. F. eks ved recency effect eller andre faktorer som man ikke umiddelbart ser. Når det er sagt tror jeg ikke det er avgjørende i dette forsøket.

Hvis du skal gjenta forsøket senere ville jeg derfor ikke valgt å overse "usikre" tester. I tillegg ville jeg ha klart definert et antall runder med ABX som kjøres og forholdt meg til det antallet.

Uansett eventuelle svakheter i testoppsettet er det også for meg vanskelig å se at du kan rettferdiggjøre din konklusjon ut ifra resultatene. Dette ser jeg også flere andre har kommentert utfyllende. At seende tester introduserer bias er i seg selv godt dokumentert, men man kan også trekke paralleller til annen forskning på mennesker. Det er jo ikke fordi man ønsker å være vrang eller synes det er spesielt morsomt at gjør dobbeltblinde, randomiserte studier i for eksempel medisinsk forskning. Det er bred enighet om at "blinding" er viktig for unngå bias, spesielt når man ser på subjektive endepunkt. Og opplevelse/vurdering av lydkvalitet - det er subjektivt. Blinde tester er veien å gå for å få de sikreste resultatene. Men det kan hende at standard ABX protokoll kanskje ikke er så sensitiv for å påvise små forskjeller i lydkvalitet.
Jeg har forklart hva jeg mener rundt dette i detalj mange ganger og kan ikke gjøre det igjen idag. Noen blindtester tar ikke med psykoopplevelsen av lytteinntrykkene, mens min test gjør det.
En blindtest som skreller vekk denne psykoopplevelsen av lyttingen er ikke relevant for de fleste av oss.
Men selvfølgelig kjemperelevant for de som utvikler komponenter. De trenger begge typer tester for å utvikle gode produkter.
Noe av utfordringen er at det er flere amerikanske gurer som sprer budskapet om at disse switchtestene er relevant for oss. Det er etter min mening helt feil.
Hva legger du i psykoopplevelsen?

Klikk for å utvide...

....

I beste mening.

vredensgnag · 28.11.2012

Siden denne tråden, helt korrekt, ligger på forumet for Forskjeller og Testmetodikk, tillater jeg meg å delta i en diskusjon omkring testmetodikk. Jeg deltar ikke i kabeldiskusjoner, og har holdt meg unna Kabelforumet i omtrent like lang tid som dette forumet har eksistert. (Det har vært noen få avvik fra regelen når jeg ikke har enset hvor en tråd hørte hjemme).

Det som interesserer meg er forskjeller, hvordan vi oppfatter dem, hva de stammer fra -- og hvordan vi kan avgjøre (teste) allment omkring samme.

Det er greit å slippe å bli kalt ufin, bare ute etter å kritisere og få slem-smiley, fordi man ønsker å diskutere testmetodikk, og avledede konklusjoner fra testen (altså forskjeller). Det er veldig mye å diskutere når det gjelder testmetodikken i dette tilfellet, og det er gjerne en indikasjon på forbedringspotensiale, om det skulle være av interesse.

Dazed · 28.11.2012

Dette begynner å bli vanskelig å lese. Hva med å bruke quote-tagger slik de er tenkt?

Også i beste mening.

Høvdingen · 28.11.2012

Jeg må først få lov til å si meg enig i at TrompetN er en veldig tålmodig mann, og jeg synes det er imponerende at denne tråden har gått såpass rolig for seg. Mye av årsaken skyldes nok at TrompetN svarer på alle innlegg uten å virke provosert, og det er i mange tilfeller en stor kunst. Kudos for det Mr. TrompetN!

Temaet som diskuteres er veldig interessant, og jeg håper tråden fortsetter på samme saklige nivå. Det må være lov til å sette spørsmålstegn ved testen som er utført, og det må lov til å være enig eller uenig. Det er jo nettopp dette som skaper en god diskusjon.

Jeg skriver dette da jeg ønsker å takke de involverte i tråden for en relativt saklig opptreden, og jeg både håper og oppfordrerer til videre saklig diskusjon.

Hvis alle tråder med stor uenighet kunne foregått på samme måte, så hadde vi ikke trengt moderatorer.

Mvh
Høvdingen

TrompetN · 28.11.2012

Dazed skrev:
Jeg tror det er viktig at du prøver å ikke se innsigelser og ankepunkter som at folk prøver å "så tvil", "svekke testen" eller rett og slett å ødelegge for deg, men at du ser det som tips om hvordan disse usikkerhetsmomentene kan elimineres nest gang, og dermed hjelpe til å gjøre testen mer "gyldig" som dokumentasjon og brukbar som faktisk dokumentasjon av funnene.

Jeg tror f.eks. ikke nb mente du hadde jukset vha. kona, men at det faktum at ingen andre enn deg kan vite det med sikkerhet, gjør at testen blir mindre gyldig for andre. Ikke at du har ment at den skulle være det, men hvis man skal trekke generelle konklusjoner basert på resultatene, ville det være en fordel at alt var gjort "riktig", slik at ingen kunne kritisere metoden i ettertid.

Noen av reaksjonene på de siste par sidene minner mer og mer om de vanlige "stritte med piggene"-ryggmargsrefleksene som gjerne når "skeptikerne"/"the usual suspects" skal "tre meningene sine nedover hodene på og ødelegge hobbyen for" de rettroende. Det er trist. Dette har vært en ganske konstruktiv tråd til nå, så vær så snill å ikke ta motargumentene i diskusjonen du selv startet så personlig.

Jeg forsøker alt jeg kan å være konstruktiv Dazed.

Dazed · 28.11.2012

Og du gjør en god innsats. Jeg var bare redd for at det jeg oppfattet som tilløp til sure miner skule utarte seg. Brannfarlige temaer og alt det der, vet du.

Bjørn ("Orso") · 28.11.2012

Angående måling av kablene.
De må i så fall på testbenken til noe som vet hvordan man skal måle slikt og har riktig utstyr. I tilfellet du trodde du kunne måle med IBF kit og frekvensrespons. Det går ikke.
Målinger hadde vært meget interessant å få. Desverre så leverer jo nesten aldri de dyre kabelprodusentene kablene sine til slike tester.

Viking · 28.11.2012

Viking skrev:
samme f... så blir det debattert til testen er pulverisert om noen hører forkjeller i en godt organisert test, som jeg har sagt i over 10 år. Her må man ikke komme og fortelle man hører forskjell, selv om testen er god, for det bryter med det man tror og mener. Ingen vilje til å se videre. Jo, mange sier de er villige til det, men det pakkes fint inn at så ikke er tilfelle. SOM VANLIG og som forutsett

Dette skrev jeg tidligere, og man ser nå IGJEN og FORTSATT at så er tilfelle. The usual suspects vil jo benekte dette, de bare pakker inn benektelsene i sidevis med svada og rundtomkring formuleringer

Dazed · 28.11.2012

Man ser det man vil se.

Viking · 28.11.2012

Dazed skrev:
Man ser det man vil se.

Det skal være sikkert og visst

gormj · 28.11.2012

TrompetN skrev:
gormj skrev:

TrompetN skrev:

Poenget mitt er at disse opplevelsene stemmer bra med mine seende inntrykk som igjen gjør at hvis man hører andre forskjeller seende kan man være trygg på at disse kan dokumenters også.
.......

Klikk for å utvide...

Jeg har tidligere rost testen din, men en slik konklusjon er jo direkte tåpelig. Du kunne ha konkludert: "dersom jeg hører lignende forskjeller seende, hvor det er like liten grunn til at jeg har en forventningsbias, så vil jeg sannsynligvis også høre forskjell blindt."

Jeg skriver og mener tåpelig. Akkurat like tåpelig som om jeg hadde hevdet at: "Jeg hører ikke forskjell på kabel a og b, derfor kan ingen andre høre forskjell på kabler"

Nå kan du selvsagt ha andre erfaringer som gjør at du trekker en slik konklusjon, men ut fra denne testen generaliserer du unødig.

Klikk for å utvide...

Jeg har ingen problemer med at du finner konklusjonen tåpelig Gormj.

Et forum som dette har en rekkevidde. Jeg har prøvd å forklare meg så enkelt som mulig hele tiden og holdt meg til enkle poenger som flest mulig kan forstå.
Lange utgreiinger gidder de færreste å lese.

Les side 6 en gang til.

I hovedtrekk:

- En kan stole på at opplevde forskjeller er reelle.
- Det er EVALUERINGEN av disse forskjellene som blir fylt MEST med forventningsbias.

Hvis du forstår hva jeg mener med dette fullt ut og likevel er uenig er det en ærlig sak.
Ta gjerne med lukteinntrykk, synsinntrykk og kontakt med i tankegangen. Det er mange måter å manipulere sansene på, det er vi enige i, men i kontrolerte omgivelser og etter et langt liv er vi ganske gode til å sanse. MEN IKKE EVALUERE KVALITETEN PÅ INNTRYKKENE.

Takk for mange gode innlegg!

Håper du fremdeles er tålmodig da jeg gjerne vil kommentere de to hovedtrekkene du nevner:

Jeg betrakter disse som to hypoteser. Jeg er svært uenig i hypotese 1: at man kan stole på at opplevde forskjeller er reelle. Det stemmer ikke med egne erfaringer. Testen din bekrefter ikke denne hypotesen. Derimot er det referert tester som faktisk avkrefter hypotesen.

Jeg har ingen formening om du har rett eller galt i hypotese 2: Det er EVALUERINGEN ..... Jeg utfordrer deg til å konstruere en test som bekrefter eller avkrefter denne hypotesen. Å sette opp hypotesen på forhånd hjelper i å forhindre at man trekker feil konklusjoner basert på en test.

Jeg forventer ikke at du tar utfordringen, men håper du ser hvor utfordrende den er

.

Asbjørn · 28.11.2012

TrompetN skrev:
Det som er det største ankepunktet i testen etter min mening er resultatet. 11 av 12 er ikke godt nok resultat. Det at jeg ikke har hatt et vitne er et mye større ankepunkt enn det igjen.
Derfor kan aldri denne testen dokumentere noe som helst og derfor er det frustrerende med repeterende aspekter som ikke har noen praktisk betydning for resultatet.

Det skjønte jeg ikke. Hvor fikk du kravet om 12 av 12 fra?

Hvis vi nå går ut fra at forsøksdesignet skal ha mindre enn 5 % sannsynlighet for å komme frem til et feilaktig positivt resultat, altså det ganske vanlige 95 % kravet til konfidens, og vi antar som nullhypotese at a priori sannsynlighet for å høre en forskjell er 0,5 - altså antar at alle eventuelle opplevelser om forskjeller skyldes rene tilfeldigheter og blind gjetting, for så å prøve å vise at den hypotesen er helt usannsynlig - og regner ut sannsynlighetene for å få x eller fler rette under den antagelsen, så er det bare 0,3 % sjanse for å få 11 rette (eller fler) og 1,9 % sjanse for 10 rette (eller fler) med 12 forsøk. Altså er 11 av 12 rette signifikant i massevis.

Sjansen for å få 12 av 12 ved ren gjetting er bare 0,02 %, og da er det resultatet signifikant ved 99,98 %-nivået - et konfidenskrav som jeg aldri har sett blitt stilt i noen som helst statistisk analyse. 95 % eller 98 % er de vanligste kravene, med 95 % som det "normale". Hvilket nivå man velger er avhengig av hvor store konsekvensene ved en falsk positiv og falsk negativ er. De to må jo avveies mot hverandre, sånn at man ikke stiller opp et krav som vil avvise tilnærmet alle reelle positive resultater i angsten for å få en falsk positiv. Ideelt er alt det der avklart før forsøket begynner, sånn at man ikke blir fristet til å tilpasse kriteriene til de data man allerede har samlet inn (eller kan mistenkes for å ha gjort det).

Hvis du tar utgangspunkt i 13 forsøk, er det 1,1 % sjanse for 11 (eller fler) rette. Igjen er det mye mindre enn 5 % sannsynlighet for at dette skjer tilfeldig. Hvis kravet til "statistisk signifikans" er 95 % konfidens, så er du godt innenfor. Det ville holde med 10 av 12 (1,9 %) eller 10 av 13 (4,6 %), hvis jeg regner noenlunde riktig her.

Jeg skjønner at denne testen var en nyttig validering av dine egne lytteinntrykk, siden resultatet bekrefter det du kom frem til seende, men jeg er fortsatt på den siden at dette neppe sier så veldig mye om hverken blindtest som metode eller validerer seende testing som metode utover den konkrete situasjonen du ville teste. Jeg opplever denne testen som nokså standard prosedyre, hvor man kommer frem til en hypotese med uformell seende testing og så setter seg fore å teste den grundigere i en blindtest. Er det slik jeg tror, eller er det ikke det? Nå var det slik, og da vet vi det. Men vi vet ikke så mye mer enn akkurat det.

Asbjørn · 28.11.2012

Viking skrev:
Viking skrev:

samme f... så blir det debattert til testen er pulverisert om noen hører forkjeller i en godt organisert test, som jeg har sagt i over 10 år. Her må man ikke komme og fortelle man hører forskjell, selv om testen er god, for det bryter med det man tror og mener. Ingen vilje til å se videre. Jo, mange sier de er villige til det, men det pakkes fint inn at så ikke er tilfelle. SOM VANLIG og som forutsett

Klikk for å utvide...

Dette skrev jeg tidligere, og man ser nå IGJEN og FORTSATT at så er tilfelle. The usual suspects vil jo benekte dette, de bare pakker inn benektelsene i sidevis med svada og rundtomkring formuleringer

Jeg aner virkelig ikke hva du snakker om. Noen av oss forsøker å ta trådens tema på alvor, nemlig å diskutere forsøksdesignet og hvilke konklusjoner man kan og ikke kan trekke av det utfallet som TrompetN fikk. Hva er galt med det? Generelt foretrekker jeg at vi diskuterer tema, heller enn hverandre.

Les åpningsinnlegget igjen, og tenk gjerne over i hvilken grad ditt eget innlegg bidrar til å svare på de spørsmålene TrompetN stiller der.

TrompetN · 28.11.2012

gormj skrev:
TrompetN skrev:

gormj skrev:

TrompetN skrev:

Poenget mitt er at disse opplevelsene stemmer bra med mine seende inntrykk som igjen gjør at hvis man hører andre forskjeller seende kan man være trygg på at disse kan dokumenters også.
.......

Klikk for å utvide...

Jeg har tidligere rost testen din, men en slik konklusjon er jo direkte tåpelig. Du kunne ha konkludert: "dersom jeg hører lignende forskjeller seende, hvor det er like liten grunn til at jeg har en forventningsbias, så vil jeg sannsynligvis også høre forskjell blindt."

Jeg skriver og mener tåpelig. Akkurat like tåpelig som om jeg hadde hevdet at: "Jeg hører ikke forskjell på kabel a og b, derfor kan ingen andre høre forskjell på kabler"

Nå kan du selvsagt ha andre erfaringer som gjør at du trekker en slik konklusjon, men ut fra denne testen generaliserer du unødig.

Klikk for å utvide...

Jeg har ingen problemer med at du finner konklusjonen tåpelig Gormj.

Et forum som dette har en rekkevidde. Jeg har prøvd å forklare meg så enkelt som mulig hele tiden og holdt meg til enkle poenger som flest mulig kan forstå.
Lange utgreiinger gidder de færreste å lese.

Les side 6 en gang til.

I hovedtrekk:

- En kan stole på at opplevde forskjeller er reelle.
- Det er EVALUERINGEN av disse forskjellene som blir fylt MEST med forventningsbias.

Hvis du forstår hva jeg mener med dette fullt ut og likevel er uenig er det en ærlig sak.
Ta gjerne med lukteinntrykk, synsinntrykk og kontakt med i tankegangen. Det er mange måter å manipulere sansene på, det er vi enige i, men i kontrolerte omgivelser og etter et langt liv er vi ganske gode til å sanse. MEN IKKE EVALUERE KVALITETEN PÅ INNTRYKKENE.

Takk for mange gode innlegg!

Klikk for å utvide...

Håper du fremdeles er tålmodig da jeg gjerne vil kommentere de to hovedtrekkene du nevner:

Jeg betrakter disse som to hypoteser. Jeg er svært uenig i hypotese 1: at man kan stole på at opplevde forskjeller er reelle. Det stemmer ikke med egne erfaringer. Testen din bekrefter ikke denne hypotesen. Derimot er det referert tester som faktisk avkrefter hypotesen.

Jeg har ingen formening om du har rett eller galt i hypotese 2: Det er EVALUERINGEN ..... Jeg utfordrer deg til å konstruere en test som bekrefter eller avkrefter denne hypotesen. Å sette opp hypotesen på forhånd hjelper i å forhindre at man trekker feil konklusjoner basert på en test.

Jeg forventer ikke at du tar utfordringen, men håper du ser hvor utfordrende den er .

Uannsett hvor dårlig tid jeg har så må jeg bare svare på et så glimrende og konstruktivt spørsmål.

Kommer tilbake til alt det andre i morgen eller sent i kveld.

Svaret mitt er at: ABX som prinsipp bekrefter både hypotese 1 og 2.

Eksempel:

-Du skal ABX-teste kaffe.

-Du har kopp A-B og X

Kopp A inneholder pulverkaffe.
Kopp B inneholder nykvernete kaffebønner av beste sort.
Kopp X inneholder pulverkaffe.

Prinsippet med ABX handler om å IDENTIFISERE i dette tilfellet kaffe (bias eller ikke).

For å kunne identifisere kaffe i en ABX test, så må man kunne huske hva man har smakt.

Hypotese 1
Det legges derfor opp til at vi må stole på at det vi har oppfattet/smakt er riktig for å kunne identifisere A eller B som X.

Si at du klarer å identifisere kaffene med et tellende 13/13.

Da er konklusjonen = Du smaker forskjell på kaffene.

Hypotese 2:

Hvilken av kaffene smaker best?

Hvis du vet hva kaffe A og B er så blir denne EVALUERINGEN om kvalitet fyllt med forventningsbias.

Denne evalueringen får du ingen hjelp til av ABX med å treffe.

Hvis du derimot har testet kaffe A og B blindt fra starten så er ikke evalueringen av kvalitet fyllt med forventningsbias. Problemet er at settingen du har smakt kaffen i ikke er representativ for settingen du skal NYTE kaffen din i.

LIKEVEL får du ingen EKSPERTHJELP til denne evalueringen. Det vil si at hvis du aldri har drukket kaffe før så er din konklusjon temmelig VERDILØS.
Hvis du er en ekspert vil mange TRO på evalueringen.

Konklusjon: Du må ha peiling på kaffe for å avgjøre kvaliteten på kaffen selv om du smaker blindt. Eller du kan velge den kaffen du synes smaker best.

Når det gjelder HIFI så er det snakk om så SMÅ forskjeller som fordrer en viss tid med testobjektet for å bli kjent med det. Personlig trenger jeg MINIMUM 4 Dager for å bli kjent med hifikomponenter på høyt nivå. Da blir det vanskelig å teste blindt fra starten av. Dessuten tester vi oftest mot vårt eksisterende utstyr som gjør at vi er best tjent med å VITE når det spiller hvis vi vil ha med Erfaringen vi har gjort oss vårt gamle utstyr og det vil jeg anbefale på det sterkeste.

Hypotese 1: Vi kan stole på hørselen vår.
Hypotese 2: Det er evalueringen som blir fyllt med mest forventningsbias.

Ergo

Hypotese 3: Vi lytter bedre seende enn blindt
( da legger hjernen til alle tidligere erfaringer og vi kan lytte dypere inn i kvaliteten. EKS Vann/Farris Ref innlegg 210 http://www.hifisentralen.no/forumet...7-seende-vs-blind-lytting-11.html#post1480144 )
Hypotese 4: Vi trenger ikke lytte blindt hvis vi vet hva vi tester

Tusen takk for oppklarende spørsmål og utfordring Gormj!!

Skriver med fet skrift og store bokstaver for at så mange som mulig henger med. Ganske kompliserte tankerekker egentlig.

Asbjørn · 28.11.2012

TrompetN skrev:
Hypotese 1: Vi kan stole på hørselen vår.
Hypotese 2: Det er evalueringen som blir fyllt med mest forventningsbias.

Ergo

Hypotese 3: Vi lytter bedre seende enn blindt
(da legger hjernen til alle tidligere erfaringer og vi kan lytte dypere inn i kvaliteten. EKS Vann/Farris Ref innlegg 210 )
Hypotese 4: Vi trenger ikke lytte blindt hvis vi vet hva vi tester

OK, jeg ser hvor du vil, men for meg henger dette fortsatt ikke helt sammen. Hypotese 1 er helt grei. Vi hører det vi hører. Poenget med en eller annen form for blindtest er jo å være sikker på at utfallet er styrt av hva vi hører, og ikke eksempelvis av hva vi ser eller hva vi har lest på forhånd. Hypotese 2 er vel også OK, altså at kvalitetsvurderingen "er A bedre enn B?" er mer påvirket av bias enn spørsmålet "hører du forskjell på A og B?". Hvis vi hører en liten forskjell, og vet at B kostet veldig mye mer penger enn A, så er det fort gjort å la seg påvirke til å mene at B også låter bedre enn A. Synspunkt av typen "dyrere låter alltid bedre" blir fremmet med jevne mellomrom her inne, så for noen som oppriktig mener det, er jo fasitsvaret gitt når prislappene er kjent.

Men, jeg tror ting sporer litt av mellom hypotese 2 og 3. Du har jo rett i at en ABX-test ikke er spesielt velegnet til å teste spørsmål av typen "hvilken foretrekker du". Testprosedyren ABX er konstruert for å teste spørsmålet "hører du forskjell?" (eller "smaker du forskjell?", "lukter du forskjell?", osv.) Dette kalles "discrimination testing", og ABX-formatet er en av mange tester i den gruppen. Noen andre er triangeltest (XXY, hvilken av disse tre er forskjellig fra de andre to?) og duo/trio (AXY, hvilken av de to ukjente er den samme som A?) Disse testene er ikke lagd for å svare på noe annet enn spørsmålet om det er en merkbar forskjell eller ikke. Slike tester brukes for eksempel når man har tuklet litt med resepten på et matvareprodukt for å redusere kostnadene, og vil forsikre seg om at konsumenten ikke vil merke noen forskjell.

For meg er den åpenbare konsekvensen av din hypotese 2 (som jeg altså tror stemmer) at blindtest er spesielt viktig for å kunne være sikker på at vurderingen av preferanse bare styres av den eller de sansene som vi har satt oss fore å teste, og ikke alt det andre. Da er spørsmålet mer å finne en testprosedyre som er egnet for å rangere preferanse uten å la seg påvirke av noe annet enn ørene (som vi altså stoler på). Dette kalles "affective testing" eller "hedonic testing". Enkleste måte å gjøre en slik på er å presentere begge (blindt og med randomisert rekkefølge fra gang til gang!) og spørre "hvilken foretrekker du, A eller B?". Andre metoder vil presentere tre eller flere alternativer og be testpanelet rangere dem eller gi karakter på en eller annen skala for også å si noe om graden av preferanse. Slike tester brukes for eksempel når man har tenkt å relansere matvareproduktet med teksten "ny og bedre!" på etiketten. Da vil det nok være smart å ha noen tester i baklommen for å dokumentere at graden av "liking" er høyere enn med den gamle resepten.

Så, hvis jeg skal være litt kritisk: Du prøver å dra ABX-prosedyren etter håret til å skulle gjøre noe den aldri var lagd for å gjøre, konstaterer at det er den ikke spesielt velegnet til, og konkluderer så at "blindtest er ingen god metode". Det er et ganske stort hull i det resonnementet, og hypotese 3 og 4 ramler ned gjennom dette hullet, er jeg redd for.

Igjen, dette er mest et prinsippielt synspunkt på hvordan slike tester best gjennomføres for å svare sikkert på hva det nå enn er vi prøver å svare på. For min egen del er dette fortsatt en hobby, og jeg har ikke tenkt å begynne å rigge meg opp med dobbeltblinde tester og hedoniske skalaer for å finne ut hva jeg selv foretrekker. Det er altfor mye jobb og komplikasjoner i forhold til hva det testresultatet er verdt for meg. Jeg tester ting seende, prøver å være litt systematisk i hvordan jeg gjør det, men har ingen illusjoner om at det er noen skuddsikker prosedyre. Jeg er formodentlig like utsatt for bias av forskjellige typer som alle andre, selv om mine kanskje drar i litt andre retninger enn enkelte andres. (Ingen nevnt, ingen glemt, Trygve.

)

Scrooge · 28.11.2012

Kul(t)!

Bortsett fra mitt lille sleivspark i retning vestlandet, (den får ta på seg hatten, som synes den passer), er det svært interessant å observere veloverveide og til tider dyptpløyende argumenter for og imot mht "seende vs blind" osv.

Jeg berømmer mer enn gjerne TrompetN for hans stålkontroll og tålmodighet i forhold til den argumentasjonen som legges for dagen hva temaet gjelder, (personlig hadde jeg forlengst vært vippet av pinnen).
Men stiller meg fortsatt i de tvilendes rekker hva denne form for testing angår, ettersom jeg har visse problemer med å svelge den anvendte metodikken.....

TrompetN · 28.11.2012

@Asbjørn: Takker for flott innlegg!

Vi to er veldig nær 100% enighet nå og vi har det samme forholdet til blindtesting i ren praktisk verdi. Bare at du bruker kunnskapen din til å evaluere og jeg bruker ørene.

Enig at begge testobjektene må være blinde fra starten av hvis ikke forventningsbias skal påvirke evalueringen.

Testene du foreslår klarer jeg ikke se på som annet enn simplere blindtester enn ABX hvor ABX dekker behovene for begge testene og gir et sikrere resultat. Det vanskelige er jo å IDENTIFISERE det man lytter til.
Når jeg lyttet til kablene klarte jeg ikke bare å identifisere kablene, men da var det LETT å si hvem som var best.
Ja, jeg drar ABX etter hårene, men mener selvfølgelig ikke at blindtester er verdiløse, men det er VELDIG NÆRT at de er verdiløse for hjemmeaudiofile.

nb · 28.11.2012

TrompetN skrev:
Når jeg lyttet til kablene klarte jeg ikke bare å identifisere kablene, men da var det LETT å si hvem som var best.

På rent prinsipielt grunnlag: Hvordan vet du at det ikke var fordi du visste at den ene kom fra Transparent og den andre er noname (siden du jo har klart å identifisere de)? Gitt at du klarer å identifisere de riktig så har du samtidig introdusert bias (som jo er noe blindtesting søker å fjerne). Det er - fortsatt på prinsipielt grunnlag - mulig at du ville ha synest at den andre (noname) var best dersom du ikke visste noesomhelst om de to testkandidatene på forhånd, men likevel klarte å skille de fra hverandre.

TrompetN · 28.11.2012

nb skrev:
TrompetN skrev:

Når jeg lyttet til kablene klarte jeg ikke bare å identifisere kablene, men da var det LETT å si hvem som var best.

Klikk for å utvide...

På rent prinsipielt grunnlag: Hvordan vet du at det ikke var fordi du visste at den ene kom fra Transparent og den andre er noname (siden du jo har klart å identifisere de)?

Godt poeng.
Det er helt sant. Det kan vi ikke vite.
Jeg identifiserte bare kablen som jeg syntes lagde subjektiv dårligere lyd.
Edit: Men det vanskelige er likevel å identifisere kablene. Å si hvem som er best er en mindre pålitelig og enklere metode som krever flere runder for å gi noe godt resultat, men etter min mening er en slik test mer en god nok.
13 runder ABX er en real utfordring uannsett forskjeller.

gormj · 28.11.2012

TrompetN skrev:
Uannsett hvor dårlig tid jeg har så må jeg bare svare på et så glimrende og konstruktivt spørsmål.

Kommer tilbake til alt det andre i morgen eller sent i kveld.

Svaret mitt er at: ABX som prinsipp bekrefter både hypotese 1 og 2.

Eksempel:

-Du skal ABX-teste kaffe.

-Du har kopp A-B og X

Kopp A inneholder pulverkaffe.
Kopp B inneholder nykvernete kaffebønner av beste sort.
Kopp X inneholder pulverkaffe.

Prinsippet med ABX handler om å IDENTIFISERE i dette tilfellet kaffe (bias eller ikke).

For å kunne identifisere kaffe i en ABX test, så må man kunne huske hva man har smakt.

Hypotese 1
Det legges derfor opp til at vi må stole på at det vi har oppfattet/smakt er riktig for å kunne identifisere A eller B som X.

Si at du klarer å identifisere kaffene med et tellende 13/13.

Da er konklusjonen = Du smaker forskjell på kaffene.

Hypotese 2:

Hvilken av kaffene smaker best?

Hvis du vet hva kaffe A og B er så blir denne EVALUERINGEN om kvalitet fyllt med forventningsbias.

Denne evalueringen får du ingen hjelp til av ABX med å treffe.

Hvis du derimot har testet kaffe A og B blindt fra starten så er ikke evalueringen av kvalitet fyllt med forventningsbias. Problemet er at settingen du har smakt kaffen i ikke er representativ for settingen du skal NYTE kaffen din i.

LIKEVEL får du ingen EKSPERTHJELP til denne evalueringen. Det vil si at hvis du aldri har drukket kaffe før så er din konklusjon temmelig VERDILØS.
Hvis du er en ekspert vil mange TRO på evalueringen.

Konklusjon: Du må ha peiling på kaffe for å avgjøre kvaliteten på kaffen selv om du smaker blindt. Eller du kan velge den kaffen du synes smaker best.

Når det gjelder HIFI så er det snakk om så SMÅ forskjeller som fordrer en viss tid med testobjektet for å bli kjent med det. Personlig trenger jeg MINIMUM 4 Dager for å bli kjent med hifikomponenter på høyt nivå. Da blir det vanskelig å teste blindt fra starten av. Dessuten tester vi oftest mot vårt eksisterende utstyr som gjør at vi er best tjent med å VITE når det spiller hvis vi vil ha med Erfaringen vi har gjort oss vårt gamle utstyr og det vil jeg anbefale på det sterkeste.

Hypotese 1: Vi kan stole på hørselen vår.
Hypotese 2: Det er evalueringen som blir fyllt med mest forventningsbias.

Ergo

Hypotese 3: Vi lytter bedre seende enn blindt
( da legger hjernen til alle tidligere erfaringer og vi kan lytte dypere inn i kvaliteten. EKS Vann/Farris Ref innlegg 210 http://www.hifisentralen.no/forumet...7-seende-vs-blind-lytting-11.html#post1480144 )
Hypotese 4: Vi trenger ikke lytte blindt hvis vi vet hva vi tester

Tusen takk for oppklarende spørsmål og utfordring Gormj!!
Skriver med fet skrift og store bokstaver for at så mange som mulig henger med. Ganske kompliserte tankerekker egentlig.

Hei igjen. Ikke ofte jeg er uenig med Asbjørn, men jeg synes ikke argumentasjonen for Hypotese 1 og 2 er grei

.

Hypotese 1:
Jeg har en sterk følelse av at du bedriver godt skjult (men sikkert utilsiktet) sirkelargumentasjon! Du må selvsagt benytte hørselen din for å bestemme deg for kabel A eller B. I hvilken grad du stoler på hørselen din eller ikke i det øyeblikk du tar beslutningen er vel forsåvidt irrelevant. Dersom du har rett 13 av 13 ganger (blindt) viser det at du hørte forskjell på kablene. Punktum. At man (alle?) derved kan stole på det man hører (i alle sammenhenger?) forblir i mitt hode en meningsløst generaliserende konklusjon.

Eksempelet med Mike Lavigne har jo vært debattert frem og tilbake tidligere Observations of a controlled Cable Test. Han var sikker på at han hørte hvilken kabel som var under test, men tok altså feil. Slik du generaliserer er det nok med et eksempel på det motsatte for å vise at du tar feil. Jeg vil derfor hevde at eksemeplet med Mike Lavigne viser at du konkluderer feil. For meg er dette så opplagt at jeg mistenker at vi snakker forbi hverandre.

Hypotese 2:
Her sliter jeg med tankerekke di. Kanskje er den vanntett, kanskje ikke. Det må jeg fundere på senere, eller helst tidligere (på dagen)

TrompetN · 29.11.2012

Scrooge skrev:
Kul(t)!

Bortsett fra mitt lille sleivspark i retning vestlandet, (den får ta på seg hatten, som synes den passer), er det svært interessant å observere veloverveide og til tider dyptpløyende argumenter for og imot mht "seende vs blind" osv.

Jeg berømmer mer enn gjerne TrompetN for hans stålkontroll og tålmodighet i forhold til den argumentasjonen som legges for dagen hva temaet gjelder, (personlig hadde jeg forlengst vært vippet av pinnen).
Men stiller meg fortsatt i de tvilendes rekker hva denne form for testing angår, ettersom jeg har visse problemer med å svelge den anvendte metodikken.....

Takker for godord Scrooge!

Det er litt mye snakk om min tålmodighet her, men jeg er jo egentlig bare glad for at folk engasjerer seg i mitt prosjekt.

Grunnen til at jeg har vært og kommer til å være streng nå er bare for å holde tråden så konkret og sakelig som mulig.

Når du skriver at du har vanskeligheter med å "svelge" metodikken, så sier det meg ingenting. Akkurat som alle de andre ankepunktene som har kommet i tråden om metodikken.
Hva er det du ikke klarer å svelge? (i beste mening)

1. Jeg er uærlig med resultatet
2. Kona gav meg skjulte signaler om hvilken kabel som stod i mens hun sov.
3. Jeg har avbrutt testen da jeg var i tvil. Som gjør at jeg kan påvirke resultatet dit jeg vil ha det!!???

Vær konkret da, please.....

"Seende" VS "blind" lytting?

Hi-Fi freak

vredensgnag

Gjest

Hi-Fi freak

Medlem

nb

Gjest

Hi-Fi freak

Hi-Fi freak

nb

Gjest

Hi-Fi freak

Æresmedlem

nb

Gjest

vredensgnag

Gjest

nb

Gjest

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Æresmedlem

Medlem

vredensgnag

Gjest

Æresmedlem

The big chief

Hi-Fi freak

Æresmedlem

Bransjeaktør

Hi-Fi freak

Æresmedlem

Hi-Fi freak

Overivrig entusiast

Rubinmedlem

Rubinmedlem

Hi-Fi freak

Rubinmedlem

Hi-Fi freak

Hi-Fi freak

nb

Gjest

Hi-Fi freak

Overivrig entusiast

Hi-Fi freak