Preskoči na vsebino

Zbiramo besedila za slovenski veliki jezikovni model

V letih 2024 in 2025 poteka gradnja velikega jezikovnega modela za slovenščino.

Ocenili smo, da za to nalogo potrebujemo besedila v obsegu 40 milijard besed. Zato organiziramo nacionalno zbiralno akcijo, v kateri lahko prispevate pisna in govorjena besedila v slovenščini.

S sodelovanjem boste omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.

Vabljeni k oddaji, potrebujemo vašo pomoč!

40 milijard besed

Trenutno stanje

9,2 milijarde besed

Faze razvoja velikega generativnega jezikovnega modela

1. Šifriranje in varna hramba gradiva

Prejete podatke bomo na varnem računalniku najprej šifrirali – zaščitili s kompleksnimi ključi, ki bodo dostopni le pooblaščeni osebi. Šifrirane podatke bomo preko varnega kanala naložili na primarni sistem za shranjevanje in jih varnostno kopirali na sekundarni sistem (odpornost na katastrofe).

2. Pretvorba besedil v enotni format

Besedila bomo pretvorili v enotni digitalni format. To vključuje konverzijo različnih digitalnih datotek v ustrezen strojno berljiv format. Iz besedil bomo odstranili elemente, ki niso primerni za obdelavo, npr. slikovno gradivo in podobno.

3. Anonimizacija in psevdonimizacija

Besedila bomo strojno anonimizirali ali psevdonimizirali, kar pomeni, da bomo iz njih odstranili osebne podatke ali jih nadomestili z generičnimi nadomestnimi kodami. S tem bomo poskrbeli, da potencialno občutljivi osebni podatki ne bodo vključeni v pripravo jezikovnega modela.

4. Procesiranje besedil za razvoj jezikovnega modela

Besedila bomo razdelili na manjše enote (besede ali dele besed), ki so potrebne za učenje modela, in odstranili podvojena besedila, nato pa s temi podatki naučili jezikovni model.

5. Dodatno varnostno učenje in evalvacija modela

Jezikovni model bomo dodatno varnostno učili, da bo znal bolje prepoznavati in obravnavati uporabniške poskuse uporabe za destruktiven namen. Pred objavo modela bomo izvedli teste in ocenili njegovo učinkovitost, natančnost in primernost v različnih kontekstih.

Zakaj potrebujemo slovenski veliki jezikovni model?

K posredovanju besedil vabimo vse: tako tiste, ki razpolagate z večjimi količinami besedil (založbe, mediji, knjižnice, šole in druge javne ustanove), kot tiste, ki imate besedil manj, a želite z njimi prispevati h gradnji jezikovnega modela za slovenščino. Vsako besedilo šteje!

Posredujete nam lahko besedila, za katera imate avtorske pravice, torej ste avtor oziroma avtorica besedila in imate avtorske pravice za svoje delo ali imate avtorske pravice za dela drugih avtorjev in avtoric. Osebne ali občutljive podatke v besedilu lahko, če želite, skrijete že sami, čeprav bomo v procesu obdelave gradiva strojno anonimizirali oziroma psevdonimizirali vsa besedila, vključena v gradnjo velikega jezikovnega modela za slovenščino.

Oddajte besedila

Naše zaveze

Odprtost

Pri zbiranju gradiv zagotavljamo transparentnost in jasno metodologijo ter skrbimo za zaščito besedilodajalcev z varno in odgovorno obdelavo podatkov. Odprto dostopni jezikovni model bo spodbujal rast in optimalno oporabo zbranih podatkov.

Etičnost

Zavezujemo se k spoštovanju etičnih standardov, vključno s spoštovanjem zasebnosti in anonimnosti ter zagotavljanjem ustreznih soglasij za obdelavo besedil. Širši cilj projekta je povečanje dostopa do znanja, digitalnih kompetenc in veščin celotne jezikovne skupnosti.

Vključevalnost

Pri zbiranju gradiva za razvoj slovenskega velikega jezikovnega modela si želimo čim večjo vključenost vseh skupin prebivalcev in s tem raznolikost in pestrost vključenega jezika.

Pogosta vprašanja in odgovori

Nismo odgovorili na vaša vprašanja?
Pišite na: projekt.povejmo@fri.uni-lj.si.

Medijske objave

Vse objave

Nastaja nekakšen slovenski ChatGPT

epizoda oddaje Studio ob 17.00, Prvi program Radia Slovenija, 3. 12. 2024

Povezava

Izzivi in dileme pri gradnji velikega jezikovnega modela za slovenščino

Posnetek strokovne razprave, FRI UL, 16. 9. 2024

Povezava

Simon Krek: Slovenščina ni suverena, če o njej odločajo pri podjetju OpenAI

epizoda oddaje Jezikovni pogovori, RTV SLO, 3. 9. 2024

Povezava

Velika zbiralna akcija besed za slovenski chatgpt

članek Simone Bandur v spletni verziji revije Delo, 17. 9. 2024

Povezava

O projektu

Ključni cilj dolgoročnega raziskovalno-inovacijskega (RRI) programa Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov (PoVeJMo) je razvoj velikih jezikovnih modelov, ki vplivajo na skoraj celotno področje umetne inteligence in strojnega učenja, pomemben vpliv pa imajo tudi na številna druga področja in na celotno družbo. Novi prostodostopni in računsko učinkoviti jezikovni modeli bodo osnova za napredne aplikacije na področju medicine, humanistike, v industrijskem okolju in pri razvoju programske opreme. Veliki generativni jezikovni modeli in njihova prilagoditev za sledenje ukazom in dialoško komunikacijo bodo zagotovili tudi temeljno infrastrukturo za aplikacije umetne inteligence v slovenskem jeziku.

V programu bomo razvili več računsko učinkovitih odprtodostopnih velikih jezikovnih modelov. Zgrajen odprtodostopen model SloLLaMa za slovenščino bo prvi tak model za morfološko bogat jezik z malo viri. Pripravili bomo korpus za sledenje ukazom, ki bo osnova za nadaljnje prilagoditve modela SloLLaMa specifičnim potrebam aplikacij, na voljo pa bo tudi za širšo akademsko in industrijsko rabo. V projektu bomo zgradili tudi temeljno infrastrukturo za aplikacije umetne inteligence v slovenščini ter razvili rešitve, ki bodo koristne za druge jezike z malo viri.

Več o projektu

Sodelujoče inštitucije:

CJVT
Fakulteta za računalništvo in informatiko
Inštitut za novejšo zgodovino
ZRC Sazu