Avalike andmekogumite ja tehisintellekti ärakasutamise tõttu kasvab madala kvaliteediga artiklite arv hüppeliselt

Üksikasjad: Avaldatud: 04 August 2025; Lisatud: 04 August 2025

Eelmisel aastal hakkas Matt Spick märkama veidralt sarnaseid artikleid, mis laekusid eelretsenseerimiseks ajakirja Scientific Reports, kus ta töötab toimetaja asetäitjana. Ta tundis haisu. Kõik artiklid tuginesid avalikult kättesaadavale USA andmekogumile: riiklikule tervise- ja toitumisuuringule (NHANES), mis on tervisekontrollide, vereanalüüside ja intervjuude abil kogunud toitumisalast teavet ja muid tervisega seotud mõõtmisi enam kui 130 000 inimeselt. „Sain nii palju peaaegu identseid artikleid – ühe päevas, mõnikord isegi kaks päevas,“ ütleb Surrey ülikooli statistik Spick.

Spick on avastanud, et see, mida ta oma ainsas ajakirjas nägi, on osa suuremast probleemist. Viimastel aastatel on NHANESi kasutavate halva kvaliteediga artiklite arv drastiliselt suurenenud, mida võivad olla algatanud ebaseaduslikud rahateenimise ettevõtted, mida tuntakse paberivabrikutena, ja mida hõlbustab tehisintellekti (AI) genereeritud teksti kasutamine, teatasid tema ja tema kolleegid eelmisel nädalal ajakirjas PLOS Biology. See leid viitab sellele, et suured rahvatervise andmekogumid on kasutamiseks küpsed, ütlevad nad.

Sellised tasuta andmeallikad võimaldavad peaaegu kõigil võtta tuntud uurimismeetodi ja lisada uusi muutujaid, et luua värskeid „leide“ omamoodi „teadushullu raamatukogus“, ütleb Reese Richardson, Northwesterni ülikooli metateadlane, kes selle tööga ei tegelenud. Teised teadlased on leidnud sarnaseid „plahvatusi“ mitmesugustes teemades, ütleb ta, sealhulgas mitmesugustes geneetilistes uuringutes, aga ka bibliomeetria või soolise ebavõrdsuse analüüsides erinevates teadusdistsipliinides.

Kõik NHANES-i artiklid, mida Spick sai, järgisid sama valemit: nad valisid terviseseisundi, sellega seostatava keskkonna- või füsioloogilise teguri ja rahvastikurühma – võib-olla uurides seost D-vitamiini taseme ja depressiooni vahel üle 65-aastastel meestel või halva hambatervise ja diabeedi vahel 18–45-aastastel naistel. „Tundus, et keegi töötas läbi iga võimaliku kombinatsiooni,“ ütleb Spick.

Et paremini mõista, kui levinud need uuringud on, otsisid tema ja ta meeskond kahest suurest teadusartiklite andmebaasist, PubMedist ja Scopusest, uuringuid, mis kasutasid NHANES-i andmeid ja uurisid üksikuid seoseid. Nad leidsid 341 sellist artiklit, mis olid avaldatud 147 ajakirjas, sealhulgas Scientific Reportsis, BMC Public Healthis ja BMJ Openis. Aastatel 2014–2021 avaldati keskmiselt neli sellist artiklit aastas, kuid kiire kasv algas 2022. aastal, mil 2024. aasta oktoobriks, mil teadlased oma otsingu tegid, avaldati 190 artiklit. Autorite sõnul ületas see kasv kaugelt terviseuuringute kasvu, mis kasutab suuri andmekogumeid üldiselt, mis viitab NHANES-i uuringute paisumise taga olevale täiendavale tegurile.

Ajastus viitab tehisintellektil põhinevate vestlusrobotite, näiteks ChatGPT, laialdasele kättesaadavusele, mis suudavad lihtsatest küsimustest ja üleslaaditud teabest genereerida loetavat teksti. Neid võidi kasutada samade NHANES-i põhitulemuste lõputuks ümbersõnastamiseks, et vältida plagiaadi avastamist, ütleb Jennifer Byrne, Sydney ülikooli molekulaarbioloog, kes eelretsenseeris PLOS Biology artiklit. Pole võimalik kindlalt järeldada, et paberivabrikud – äriettevõtted, mis müüvad autoriõigust petturlikele või madala kvaliteediga artiklitele – need artiklid tootsid, ütleb ta, kuid „suurenemise ajastus ja ulatus panevad arvama, et selle taga peab olema mingisugune koordineerimine“.

Paljud uuemad NHANES-i uuringud analüüsisid valikuliselt osi oma andmestikust ilma selge põhjenduseta – näiteks piirasid autorid oma analüüsi teatud aastate või uuringus osalenud inimeste teatud vanusega. See viitab sellele, et autorid otsisid statistiliselt olulisi tulemusi, et hõlpsalt avaldada, ütleb Spick. Kuid tulemuste otsimine nii suurest andmestikust annab paratamatult palju valepositiivseid tulemusi. Kui meeskond uuris lähemalt 28 depressiooni uurinud NHANES-i uuringut, leidsid nad, et ainult 13 tulemust jäid ellu statistilise korrigeerimise abil, mis korrigeerib valepositiivsete tulemuste leidmise riski.

Spick ja tema meeskond arvavad, et nende analüüs võib probleemi oluliselt alahinnata. Nende otsing otsis ainult NHANES-i uuringuid, mis vastavad Spicki vaadeldud valemile, kuid laiem otsing näitab, et andmekogumit kasutavate artiklite arv suurenes 4926-lt 2023. aastal 7876-le 2024. aastal. Ja teised suured terviseandmekogumid – näiteks ülemaailmse haiguste koormuse uuring – võivad samuti olla haavatavad, ütleb Spick. Need andmekogumid muudavad teadlastel oma teabega suhtlemise kodeerimiskeelte, näiteks Pythoni või R-i abil lihtsaks, kuid see muudab nende kasutamise ka lihtsaks: tema meeskond suutis hõlpsasti kirjutada koodi, mis suutis kõik NHANES-i andmed kätte saada ja haiguste ja tervisemuutujate kombinatsioone „läbi vaadata“. Madala kvaliteediga uuringute „industrialiseerimine“ uputab kirjanduse kasutute leidudega, ütleb Spick. „Ausalt öeldes sain ma selle peale tõeliselt hulluks.“

Richardson ütleb, et nii teaduspublikatsioonides kui ka selles, kuidas teadustööd premeeritakse. „Kõik artiklis nimetatud kirjastajad võtsid selle rämpsu avaldamise eest tasusid, tõenäoliselt suurusjärgus 1000 dollarit igaüks,“ märgib ta. (Avatud juurdepääsuga ajakirjad, sealhulgas PLOS Biology, võtavad artiklite vabalt kättesaadavaks tegemise eest üldiselt autoritasu.) Ja teadlasi motiveeritakse karjääri edendamiseks avaldama rohkem artikleid, mitte kvaliteetsemaid. Ta hoiatab, et probleem „ainult süveneb, kui me ei restruktureeri radikaalselt teaduspublikatsioonide stiimuleid“.

Lisateave: https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

Populaarsed artiklid

Nädala kommentaar

Avalike andmekogumite ja tehisintellekti ärakasutamise tõttu kasvab madala kvaliteediga artiklite arv hüppeliselt

MOU between IBTE and SEAMASTER