DIAG - Hypotesegenreringselskapet - litt om MVA (derfor er jeg skeptisk)

Snøffelen · desember 13, 2011

Så gjennom HO forumet og så at noen hadde postet et innlegg som innholdt et Abstract fra en poster som omhandlet Parkinson fra DIAG, og da med samme approach som DIAG har på Alzheimer. Grunnen til at akkurat dette er et interessant eksempel er at det faktisk finnes en test som kan påvise tidlig Parkinson (skille det fra aldresdomsskjelving), nemlig Datscan fra GE Healthcare, og ikke bare sannsynliggjøre det ut fra en klinisk evaluering.

Har flere tanker jeg ønsker å formidle her, og alt kommer kanskje ikke i riktig rekkefølge, så vær litt tålmodig. Men først Posteret:

"Integration of clinical and microarray data with Canonical Partial Least Squares for prediction of Parkinson's disease

M.K. Karlsson1,2, H.-M. Andersen1, A. Lönneborg1, S. Sæbø2

1DiaGenic ASA, Oslo, 2Department of Chemistry, Biotechnology, and Food Science, Norwegian University of Life Sciences, Ås, Norway

The clinical diagnosis of Parkinson's disease rests on the identification of the characteristics related to dopamine deficiency that are a consequence of progressive neuronal loss of the substantia nigra and other brain structures. However, non-dopaminergic and non-motor symptoms are sometimes present before diagnosis and almost inevitably emerge with disease progression.

Clinical data, such as gender, age, patient history, laboratory factors - which are the basis of day-to-day clinical decision support - are often underused to guide the diagnosis of Parkinson's disease in the presence of microarray data. We apply a method called CPLS to incorporate clinical data as additional response variables to stabilize the extraction of latent components in Partial Least Squares (PLS) regression.

Four different PLS regression methods for predicting Parkinson's disease status were compared. A repeated random 10-fold CV routine was used to evaluate their classification performance.

The CV-results show that including clinical information in the model building improves predictions and produces simpler and more stable models. We found that CPLS and the closely related CPPLS extract more information in the first few latent components than regular PLS does."

Først vil jeg bare sammenligne Datscan med hva denne testen kan tenkes å bli:

Sett at man ønsker å måle noens høyde, men man lever i en verden der et målebånd eller tommestokk ikke finnes, en man har masse andre tilgjenglige data man kan bruke som, alder, nasjonalitet, vekt, kjønn, blodtype, hårfarge, matvaner, hobbyer etc.

Hvis man putter mange av disse dataene inn i en modell så vil man faktisk kunne i de fleste tilfellene kunne si noe om en tilfeldig valgt persons høyde, men man kan også bomme grovt.

Den multivarite modellen er DIAG sin ide og fremgangsmåte. Man vet at jo mere av det som man kan forvente har en korrelasjon til det man ønsker å predikere som puttes inn i modelle, desto større er sjansen for at man i flere tilfeller treffer.

Tommestokken eller målebåndet er her Datscan.

Nå har man ikke ennå funnet noen tommestokk for Alzheimer, men DIAG har modellen, og ut i fra det man putter inn i modellen så er har vi selvsagt masse som korrelerer, men vi kan ikke si med 100% at vi har kausalitet.

Av grunnene nevnt ovenfor så skjønner jeg meget godt hvorfor DIAG sier at de har et produkt som kan brukes av farmasøytiske firma til å screene grupper etter egnete subjekter til kliniske studier. Vel og bra det, men jeg klarer ikke helt å se hvordan dette skal generere de helt store pengene.

Neste punkt gjelder MVAen (multivariat analyse). Og her er det en del saker det er viktig å ha klart for seg. For det første så vil jeg si at dette er eksplorativt. PLS er en hypotesegenereringsteknikk, på generlt grunnlag. Og spesielt i dette tilfelle hvor man har veldig mange variable som input for å finne antatt relevante latente variabler.

Hvis man øsnker et farmasøytisk produkt så er det primære målet (fordi alt skal gjennom en regulatorisk kvern hvor alt blir plukket fra hverandre) ikke hypotesegenerering, men hypoteseverifisering. Og en validering av teknikken.

Og når vi først er inne på temaet validering. Når man snakker med en dataanalysemann (ekspert på MVA-teknikker) og nevner ordet validering så har det et helt annet meningsinnhold enn hvis man snakker med en person i farmasøytisk industri som tar metode for metode, prosess steg for prosess-steg. Datanalysemanne har en mer holoistisk tilnærming, mens industrimannen har en mer praktisk, konkret og faktisk tilnærming. Data-analysetilnærmingen vil få større problemer i en regulatorisk evaluering.

Og igjen jeg tipper det er derfor testen er tenkt brukt i screening for søken etter subjekter i kliniske studier, og igjen det er derfor jeg ikke kan fatte at det skal være så mye penger i dette.

Når det gjelder selve PLSen og måten de har validert dette på (ja nå i data-analyse forstand), så har jeg selvsagt noen spørsmål jeg lurer på...

For det første så liker jeg ikke måten CVen er gjort på (CV = cross validation), den er random... Med andre ord så "avslører" de at de har så mange variabler og subjekter i datasettet sitt at de ikke evner å gjøre et fornuftig utplukk slik at de unngår å validere på replikater (har man replikater i datasettet blir selvsagt valideringsmodellen like god som kalibreringsmodellen, men straks en ny ukjent prøve kommer inn kan prediskjonsevnene bli , ja dårlig).

Jeg synes at dette på en måte bekrefter black box tilnærmingen til DIAG, og jeg kjenner litt "lusa på gangen". For det er et minefelt, og jeg vet hvordan det føles å få et stort datasett man bare kan boltre seg i å sette i gang med hypotesegenereringsprosessen,..., det er fort gjort å la seg rive med.

Til slutt vil jeg si at jeg faktisk har tro på at dette kan fungere, men poenget mitt er at det er alt for mange feller å gå i her, og at jeg mistenker at det er vanskelig for beslutningstagerne å helt følge/forstå hva fagfolkene holder på med.

Jeg får heller gå glipp av noe genialt her (for det kan jo meget vel hende at det som korrelerer både er relvant og ville bestå "kausalitets-testing"). Det blir for drøyt for meg.

Faglig innspill og relevant kritikk/slakt tas selvfølgelig i mot med takk. Og jeg poster det ikke her fordi jeg vet at det er få som leser dette, men fordi jeg regner med at hvis folkførst har noe de vil si så er det relevant.

Logg inn

DIAG - Hypotesegenreringselskapet - litt om MVA (derfor er jeg skeptisk)

Recommended Posts

Snøffelen

Link to comment

Share on other sites

Join the conversation

Lage deg en bruker i dag for alle funksjoner. Helt gratis!

Browse