Low-Q skrev:
Hvordan tolker en datamaskin Elvira Nikolaisens stemme, mon tro? Maskinens "beskrivelse" er neppe den samme, og hvordan måler man signaturen til hovne bihuler fulle av snørr, mot en frisk stemme fra samme person? Det har jeg ikke prøvd før, men det lar seg nok klart skille ut på en måling.
Jeg tilslutter Pedal,
Dette var interessant lesing Low-Q.
At alle disse tingene er målbart synes jeg er innlysende. Hvis ikke ville vi ikke være i stand til å høre særegenhetene i Elvira sin stemme fra et opptak. Det ville bare kunne høres live. Så opptakskjeden og avspillingskjeden fanger opp disse nyansene. Dermed er det også målt og arkivert.
Utfordringen oppstår når man skal presentere måleresultatene - analysere de og trekke konklusjoner som sier noe fornuftig om hvordan det lyder.
Du berører jo også en subjektiv komponent her - vi er i stand til å høre likheter mellom Morten Harket og Kristian Valen. Dels fordi vi finner felles mønstre i de to stemmene. Men også dels fordi vi er flinke til å overhøre det som ikke stemmer med mønsteret (vi mennesker er flinke til å sjalte ut det som ikke passer inn).
Man må gjøre noe liknende hvis man skal la en datamaskin analysere målingene. Man må finne mønstre - enten det er spektrogrammer eller noe annet - og så sjalter man ut det som ikke fanges opp av de mønstergjenkjenningsteknikkene man benytter.
Jeg bestrider på ingen måte mulighetene av at maskinell stemmegjenkjenning kan være mer treffsiker enn vår hørsel og persepsjon. Men jeg tror nok det er vanskelig - for å si det forsiktig - å analysere en wav-fil og så formidle hvordan det låter med alle dets fasetter og nyanser. Hørselen - hammeren, ambolten og stigbøylen og det der - er kanskje ikke så vanvittig fintfølende. Men vi er flinke til å analysere og syntetisere den lyden som strømmer inn.
Hvis noen noensinne klarer å utvikle analyseverktøy og visuelle presentasjoner som gjør oss i stand til å *høre* hvordan det låter ved å lese en analyserapport - så har vi et opplegg der måling matcher ørene på alle områder. Men inntil dess, er jeg redd vi må bruke ørene for å finne ut hvordan det "egentlig" låter.