Teaduslikud avastused on üks keerulisemaid inimtegevusi. Kõigepealt peavad teadlased mõistma olemasolevaid teadmisi ja tuvastama olulise lünga. Seejärel peavad nad sõnastama uurimisküsimuse ning kavandama ja läbi viima eksperimendi, et leida vastus. Seejärel peavad nad analüüsima ja tõlgendama eksperimendi tulemusi, mis võib tekitada veel ühe uurimisküsimuse.
Kas nii keerulist protsessi saab automatiseerida? Eelmisel nädalal teatas Sakana AI Labs „AI teadlase“ loomisest - tehisintellekti süsteem, mis nende väitel suudab täielikult automatiseeritult teha teaduslikke avastusi masinõppe valdkonnas.
Kasutades generatiivseid suuri keelemudeleid (LLM), nagu need, mis on ChatGPT ja teiste AI-juturobotite taga, suudab süsteem teha ajurünnakuid, valida välja paljulubava idee, kodeerida uusi algoritme, joonistada tulemusi ja kirjutada eksperimendi ja selle tulemused kokkuvõtva dokumendi koos viidetega. Sakana väidab, et tehisintellekti vahend suudab teha teadusliku eksperimendi kogu elutsükli, makses vaid 15 USA dollarit ühe töö kohta - vähem kui teadlase lõunasöök.
Need on suured väited. Kas need ka vastavad? Ja isegi kui nad on, kas tehisintellekti teadlaste armee, kes toodab teadustöid ebainimliku kiirusega, on tõesti hea uudis teaduse jaoks?
Palju teadust tehakse avalikult ja peaaegu kõik teaduslikud teadmised on kusagil kirja pandud (muidu ei oleks meil võimalik neid „teada“). Miljonid teadusartiklid on veebis vabalt kättesaadavad sellistes repositooriumides nagu arXiv ja PubMed.
Nende andmetega koolitatud LLMid tabavad teaduse keelt ja selle mustreid. Seetõttu ei ole ehk üldse üllatav, et genereeriv LLM suudab toota midagi, mis näeb välja nagu hea teadustöö - ta on neelanud palju näiteid, mida ta suudab kopeerida.
Vähem selge on see, kas tehisintellekti süsteem suudab toota huvitavat teaduslikku tööd. Oluline on, et hea teadus nõuab uudsust.
Teadlased ei taha, et neile räägitakse asjadest, mis on juba teada. Pigem tahavad nad õppida uusi asju, eriti uusi asju, mis erinevad oluliselt sellest, mis on juba teada. See eeldab hinnangut panuse ulatuse ja väärtuse kohta.
Sakana süsteem püüab huvipakkuvust käsitleda kahel viisil. Esiteks „hindab“ see uute tööideede sarnasust olemasoleva teadustööga (mis on indekseeritud Semantic Scholar'i andmebaasis). Kõik, mis on liiga sarnane, jäetakse kõrvale.
Teiseks on Sakana süsteemis sisse viidud „vastastikuse eksperdihinnangu“ etapp - kasutades teist LLMi, et hinnata genereeritud töö kvaliteeti ja uudsust. Ka siin on internetis palju näiteid vastastikuse eksperdihinnangu andmise kohta sellistel saitidel nagu openreview.net, mis võivad anda juhiseid, kuidas tööd kritiseerida. Ka LLMid on neid sisse võtnud.
Tagasiside Sakana AI toodangu kohta on segane. Mõned on kirjeldanud seda kui „lõputut teaduslikku jama“.
Isegi süsteemi enda hinnangul on süsteemi väljundid parimal juhul nõrgad. Tehnoloogia arenedes see tõenäoliselt paraneb, kuid küsimus, kas automaatsed teadustööd on väärtuslikud, jääb alles.
Avatud küsimus on ka LLMide võime hinnata teadusuuringute kvaliteeti. Minu enda töö (mis avaldatakse peagi ajakirjas Research Synthesis Methods) näitab, et LLM-id ei ole väga head meditsiiniliste uuringute erapoolikuse riski hindamisel, kuigi ka see võib aja jooksul paraneda.
Sakana süsteem automatiseerib avastusi arvutuslikes teadusuuringutes, mis on palju lihtsam kui muudes teaduse liikides, mis nõuavad füüsilisi katseid. Sakana eksperimendid tehakse koodiga, mis on samuti struktureeritud tekst, mille genereerimiseks saab LLM-i koolitada.
Tehisintellekti uurijad on aastakümneid arendanud teadust toetavaid süsteeme. Arvestades avaldatud teadustööde tohutut mahtu, võib isegi konkreetse teadusliku küsimuse jaoks asjakohaste publikatsioonide leidmine olla keeruline.
Spetsiaalsed otsinguvahendid kasutavad tehisintellekti, et aidata teadlastel leida ja sünteesida olemasolevaid töid. Nende hulka kuuluvad eespool nimetatud Semantic Scholar, aga ka uuemad süsteemid nagu Elicit, Research Rabbit, scite ja Consensus.
Teksti kaevandamise vahendid, nagu PubTator, kaevuvad sügavamalt dokumentidesse, et tuvastada põhipunktid, näiteks konkreetsed geneetilised mutatsioonid ja haigused ning nende kindlaks tehtud seosed. See on eriti kasulik teadusinfo kureerimisel ja korrastamisel.
Masinõpet on kasutatud ka meditsiiniliste tõendite sünteesi ja analüüsi toetamiseks sellistes tööriistades nagu Robot Reviewer. Kokkuvõtted, mis võrdlevad ja vastandavad Scholarcy paberite väiteid, aitavad teostada kirjandusülevaateid.
Kõigi nende vahendite eesmärk on aidata teadlastel oma tööd tõhusamalt teha, mitte asendada neid.
Lisateave: https://theconversation.com/a-new-ai-scientist-can-write-science-papers-without-any-human-input-heres-why-thats-a-problem-237029
