Ühe väikese Hiina idufirma jaoks oli USA keeld müüa Hiina ettevõtetele kõige arenenumate tehisintellekti (AI) arvutikiipe innovatsioonile. DeepSeek, mille 2023. aasta mais käivitas endine tehisintellekti tudeng, kellest sai riskifondide haldur, ütleb, et on leidnud viisi, kuidas võrrelda oma USA konkurentide jõudlust tehisintellekti valdkonnas, kasutades teise astme graafikatöötlusseadmeid – ja see on vaid murdosa kuludest.
DeepSeek oli juba tähelepanu pälvinud mitmete ambitsioonikate ja väga tõhusate suurte keelemudelitega (LLM), mis sarnanevad OpenAI ChatGPT-ga, kuid vähem võimsad. Erinevalt ChatGPT-st ja enamikust selle lääne konkurentidest on DeepSeeki LLM-id avatud lähtekoodiga, mis tähendab, et kasutajad saavad lähtekoodi vaadata ja muuta, et seda täiustada või kohandada. Nüüd ütleb DeepSeek, et on oma uusima mudeliga V3 teinud suure sammu edasi. See "ületab teisi avatud lähtekoodiga mudeleid ja saavutab jõudluse, mis on võrreldav juhtivate suletud lähtekoodiga mudelitega", teatas ettevõte 27. detsembri 2024. aasta tehnilises aruandes.
AI vaatlejad võtavad väidet tõsiselt. DeepSeek on "lõhe mõnede maailma parimate [LLM-idega] kaotanud", edestades isegi OpenAI uusimat mudelit GPT-4o mõne võrdlusaluse osas, ütleb politoloog Jeffrey Ding George Washingtoni ülikoolist, kes uurib uusi tehnoloogiaid. Kui DeepSeek V3 läbib täiendavad sõltumatud kontrollid, "on see väga muljetavaldav teadusuuringute ja inseneritöö väljapanek ressursside piiratuse tingimustes," kirjutas arvutiteadlane Andrej Karpathy, kes oli OpenAI kaasasutaja ja varem töötas.
Hiina kiire juurdepääsu puudumine täiustatud tehisintellekti kiipidele sunnib Hiina tehisintellekti teadlasi olemasolevate riistvararessursside piires uuendusi tegema, ütleb Washingtonis asuv USA-Hiina majanduskonkurentsile spetsialiseerunud analüütik Ray Wang. DeepSeek ütleb, et osa selle lähenemisviisist hõlmas nn ekspertide segu arhitektuuri täiustamist. See vähendab mudeli treenimiseks vajalikku arvutusvõimsust ja annab päringutele tõhusamaid vastuseid. Ainult osa mudelis olevatest ekspertvõrgustikest on ülesande jaoks koolitatud. Seejärel saadab väravavõrk päringud kõige paremini vastamiseks sobivatele ekspertvõrkudele.
"DeepSeek näitab, kuidas leidlikkus võib tõhusalt leevendada piiranguid, mis tulenevad piiratud juurdepääsust täiustatud riistvarale," ütleb Sydney Tehnikaülikooli Hiina innovatsiooniekspert Marina Zhang.
Suurenenud efektiivsus säästab raha, ütleb DeepSeek. Ta kulutas V3 koolitamisele hinnanguliselt vaid 5,6 miljonit dollarit – palju vähem kui hinnanguliselt 78 miljonit dollarit, mis OpenAI-le ChatGPT-4o koolitamiseks kulus. Ja Ding ütleb, et kasutajad saavad seda mudelit kasutada "palju madalamate kuludega kui teised mudelid, mis pakuvad sarnast jõudlust." Ettevõte ütleb, et V3 andmeanalüüs, mustrituvastus ja ennustavad modelleerimisvõimalused võivad aidata prognoosida kliimamõjusid, tuvastada haiguste biomarkereid ja testida kosmoloogilisi teooriaid muu hulgas teaduslikul eesmärgil.
Erinevalt enamikust peamistest rivaalidest ei toeta DeepSeeki üks Hiina kõrgtehnoloogia hiiglasi, kes kasutavad mitut tehnoloogiat. Ja "ettevõtte põhirõhk on innovatsioonil ja suure jõudlusega Hiina LLM-ide arendamisel, " ütleb Wang.
DeepSeek ei vastanud Science’i meilile. Kuid eelmisel aastal ütles DeepSeeki asutaja ja tegevjuht Liang Wenfeng Hiina meediaväljaandele AnYong Waves, et ettevõtte prioriteet on teadusuuringud ja tehnoloogiline innovatsioon, mitte ärivõimalused. Ta lisas, et selle lõppeesmärk on saavutada tehisintellekt – AI püha graal –, mille puhul mudelid vastavad inimese kognitiivsetele võimetele. Ta ütles, et see kõrge eesmärk on aidanud ettevõttel meelitada ambitsioonikaid teadlasi. "Tipptalentide suurim tõmbenumber on kindlasti maailma raskeimate väljakutsete lahendamine."
Liang õppis tehisintellekti Zhejiangi ülikoolis. 2015. aastal aitas ta luua riskifondi High-Flyer, mis toetub tehisintellektipõhistele strateegiatele ja haldab nüüd väidetavalt 8 miljardi dollari väärtuses investeeringuid. High-Flyer käivitas DeepSeeki, et keskenduda LLM-idele. Liang on väidetavalt praktiline tegevjuht, kes on paljude DeepSeeki teadustööde kaasautor.
Kuigi DeepSeek on teinud suuri edusamme, näevad vaatlejad ees ootavaid väljakutseid. Selle avatud lähtekoodiga lähenemisviis tähendab, et konkurendid saavad DeepSeeki meetodeid täiustada, ütleb Ding. Ja ettevõte jätkab tulevikus kindlasti võitlust ilma täiendava juurdepääsuta üha suuremale hulgale tehisintellekti kiipidele, ütleb Gregory Allen, Strateegiliste ja rahvusvaheliste uuringute keskuse tehisintellektipoliitika ekspert. Zhang ütleb, et Hiina ettevõtted peavad "pidevalt nihutama tarkvara ja süsteemide uuenduste piire, et mängus püsida."
Kuna DeepSeek ja teised Hiina ettevõtted püüavad leida Lääne LLM-i, on neil eelis Hiina turu omamisel. ChatGPT ja muud mudelid blokeerib Hiina suur tulemüür, kuna nende väljundit ei tsenseerita (kuigi paljud Hiinas kasutavad neile juurdepääsuks virtuaalseid privaatvõrke). DeepSeek V3 näib tunnistavat poliitilist tundlikkust. Küsis: "Mille poolest on Tiananmeni väljak kuulus?" see res
tiigid: "Vabandust, see on väljaspool minu praegust ulatust."
Kõik tundlikud küsimused ei ole siiski keelatud. Küsides COVID-19 pandeemia päritolu kohta, annab DeepSeek V3 neutraalse ja faktilise vastuse, milles mainitakse Wuhani viroloogiainstituudi lekke teooriat, kuigi järeldatakse, et enamik teadlasi "toetub loomulikule zoonootilisele päritolule".
Lisateave: https://www.science.org/content/article/chinese-firm-s-faster-cheaper-ai-language-model-makes-splash
