Wikimedia, DataStax ja Jina AI käivitavad semantilise otsingu mittetulunduslikele tehisintellekti arendajatele

Üksikasjad: Avaldatud: 19 September 2024; Lisatud: 19 September 2024

Kontseptsioon teeb Wikidata avalikult litsentseeritud andmed AI-rakenduste arendajatele lihtsamalt kasutatavas formaadis kättesaadavaks. See lihtsustab avatud lähtekoodiga mittetulundusliku tehisintellekti rakenduste arendamist ja aitab kaasa usaldusväärsema teabe ökosüsteemi loomisele.

Wikidata on avatud teadmistegraaf, milles on üle 112 miljoni inim- ja masinloetava kirje, ning see kujutab endast arendajatele ja ühiskonnale väärtuslikku andmevaramut. Tänu üle 12 000 aktiivse toimetaja pidevale panusele on Wikidata andmed mitmekesised ja hästi hooldatud.

Vajadus juurdepääsuks suurele hulgale kvaliteetsetele andmetele on viimasel kümnendil oluliselt suurenenud.

Eelkõige genereeriv tehisintellekt vajab suuri koguseid treeningandmeid, mida sageli kogutakse internetist.

Selline kraapimine nõuab aga tööjõu- ja ajaressurssi, mis on kättesaadav peamiselt suurtele äriorganisatsioonidele. See toob kaasa suletud ökosüsteemi andmete kasutamiseks, mis on vastuolus avatud lähtekoodiga ideaalidega.

Wikidata soovib aidata kaasa selle suletud süsteemi avamisele, muutes Wikidata rahvahulkade poolt valideeritud kirjed kergesti ligipääsetavaks andmeallikaks avatud lähtekoodiga tehisintellekti rakenduste arendamiseks.

Kui Wikidata on integreeritud rohkemasse avatud lähtekoodiga masinõppe töövoogudesse, saab teabe ökosüsteemi kvaliteeti parandada: Tehisintellekti vigu saab vähendada ja elukestva õppe väljund võib muutuda usaldusväärsemaks.

Pikemas perspektiivis võiks laiem avalikkus saada kasu sellest, et Wikidata andmetel põhinevad usaldusväärsemad alternatiivid kommertslike genereeriva tehisintellekti pakkujatele.

Wikimedia Deutschland on mittetulundusühing, millel on üle 111 000 liikme ja 180 töötaja, kes on pühendunud vabalt kättesaadavate teadmiste edendamisele digitaalses ruumis. Ta on rahvusvahelise Wikimedia liikumise suurim riigi esindaja, arendab vaba tarkvara ja vaba andmebaasi Wikidata ning osaleb poliitilises ja haridustegevuses, et edendada vaba juurdepääsu teadmistele ja andmetele.

Dr Jonathan Fraine, Wikimedia Deutschlandi tarkvaraarenduse juht:

„Keskendume arendajate abistamisele, kes jagavad meie väärtusi. Paljud arendajad leiavad aga, et juurdepääs Wikidata'le on keeruline ning meie praegused meetodid ei toeta andmemahtu, mis on vajalik mõnede kõige uuemate genereeriva tehisintellekti arendamise vajaduste rahuldamiseks.“

Nüüd, DataStaxi ja Jina AI toel, muudetakse Wikidata andmed ümber ja muudetakse AI-arendajatele mugavamaks semantiliste vektoritena vektorandmebaasis. DataStax pakub vektorandmebaasi, Jina AI aga avatud lähtekoodiga sisseehitusmudelit tekstiandmete vektoriseerimiseks.“

Vektorimoodustused on sõnade või teemade matemaatilised esitused -- need luuakse selleks, et muuta need sõnad ja nende semantilised tähendused vormiks, mida arvutid saavad mõista ja kasutada. Kui töötate suurte keelemudelitega teksti mõistmiseks, kasutavad nad neid embeddinguid osana oma meetodist vastuste loomiseks.

Vektorpärimusi kasutatakse seejärel sellisteks toiminguteks nagu otsing - te soovite vastata kasutaja päringule asjakohaste andmetega, seega muudate nende päringu vektorpärimuseks ja otsite seejärel midagi sarnast oma andmekogudest. Kui otsing on lõpetatud, saate need embeddingu tulemused tagasi LLM-i ja anda kasutajale vastuse.

Dom Couldwell, DataStaxi EMEA valdkonna arendusjuht, selgitas:

„Embeddings parandavad vastuseid ja muudavad need kasutaja jaoks asjakohasemaks. Praegu peavad paljud arendajad siiski ise looma oma manustamisandmed, mis võib olla kulukas, kui neil on palju andmeid, mida kasutada.

Selle projekti puhul parandab Wikimedia andmete vektori manustamise pakkumine genereeritavate vastuste kvaliteeti. Samuti saab sellele juurde pääseda, et saada ajakohasemat teavet - selle asemel, et toetuda vanadele andmetele, mida kasutati väljaõppeks, saab kasutada uusimat versiooni, mis põhineb Wikimedia kõige värskematel uuendustel.

Ilma andmeteta ei ole tehisintellekti ja see pakub arendajatele kvaliteetsemat allikat, mida kasutada.“

Vektoriseerimine võimaldab otsest semantilist analüüsi ja võib aidata kaasa vandalismi tuvastamisele teadmistegraafis. Vektoriseerimine lihtsustab tulevikus ka Wikidata kasutamise protsessi RAG (retrieval-augmented generation) rakendustes - see võib vähendada tehisintellekti vigu, kuna tulemustes sisalduvad jooksvad, kontrollitud faktid. Wikimedia Deutschland alustas kontseptsiooni loomist 2023. aasta detsembris.

Lisateave: https://tech.eu/2024/09/17/wikimedia-datastax-and-jina-ai-launch-semantic-search-for-ai-developers/

Populaarsed artiklid

Nädala kommentaar

Wikimedia, DataStax ja Jina AI käivitavad semantilise otsingu mittetulunduslikele tehisintellekti arendajatele

1 943 / 5 000 Trumpi kärped enam kui 1700 NIH toetusele jõuavad kohtuistungile