Stor språkmodell

En stor språkmodell (engelsk: large language model, LLM) er en avansert maskinlæringsmodell som er spesialisert på å forstå og generere naturlig språk.[1]
En klassisk språkmodell bruker statistikk for å gjette hva et ord er basert på tidligere ord.[2] I en stor språkmodell brukes et nevralt nettverk som er trent opp på forhånd på kjente data, kalt generative pre-trained transformer (GPT).
En stor språkmodell bruker veldig mye tekst for å trene opp det nevrale nettverket, og «stor» peker på antallet parametere og omfanget av data modellen er trent på, gjerne milliarder av ord.[3] Store nevrale nettverk er for kompliserte til at noen kan forutsi hva som skjer, men store språkmodeller sammen med generativ kunstig intelligens (KI), kan likevel gi gode svar.[4]
Historie
[rediger | rediger kilde]På 1990-tallet la IBM grunnlaget for konstruksjonsgrammatikk (CxG) for å bruke det til å oversette tekster. Opp til en milliard ord ble brukt til opplæring, og mange forskjellige metoder ble prøvd for å unngå misforståelser og tvetydigheter.[5]
Fra 2012 ble nevrale nettverk mer brukt, og nett med tilbakekoblinger, såkalt «recurrent neural networks» viste seg gode på f.eks. å gjenkjenne håndskrift.[6]

I 2017 kom artikkelen «Attention is all you need» som viste at et flytende fokus på de ordene som til en hver tid ble mest brukt var effektivt. Artikkelen laget en modell «Transformer» som kun bruker forrige beregning i det nevrale nettverket sammen med den neste, uten noen tilbakekoblinger av det endelige svaret, og viste at denne metoden lærte mye raskere og oversatt engelsk til tysk mye bedre enn tidligere modeller.[7]
I 2018 laget OpenAi GPT-1, (Generative Pre-trained Transformer) en stor språkmodell som benyttet transformer-arkitekturen. Året etter kom GPT-2, som fikk mye oppmerksomhet ettersom Elon Musk og Sam Altman uttalte at den hadde stort potensiale for ondsinnet bruk.[8] I 2022 kom GPT-3, og i 2024 GPT-4. Det var likevel chatboten ChatGPT, som kom i 2022 basert på GPT-3.5, som gjorde massene klar over hva store språkmodeller kunne brukes til.[9] Etter ChatGPT ble mange store språkmodeller tilgjengelig for flere, bl.a. vitenskapsorienterte BLLOM, LlaMA fra Meta og franske Mistral 7B. I januar 2025 kom kinesiske DeepSeek som gav svært gode resultater med mye lavere kostnader. DeepSeek bruker åpen vekting av parametrene i sin kunstige intelligens.[10]
Arkitektur
[rediger | rediger kilde]Store språkmodeller er nesten utelukkende basert på transformer-arkitekturen.[11] Den sentrale mekanismen i denne er self-attention, en metode der hver token i en sekvens beregner en vektet sum av alle andre tokens i samme sekvens. Vektingen styres av innlærte projeksjoner kalt queries, keys og values, som avgjør hvor mye informasjon hver token skal hente fra de øvrige.[7] Denne mekanismen gjør det mulig å fange opp avhengigheter mellom ord uavhengig av avstanden mellom dem i teksten, noe rekurrente nettverk har problemer med når sekvensene blir lange.[7]
Ettersom self-attention behandler alle tokens samtidig, har arkitekturen ingen innebygd informasjon om ordrekkefølgen. For å ivareta rekkefølgen får derfor hver token lagt til en posisjonskoding (engelsk: positional encoding) før den sendes inn i nettverket.[7] Transformeren bruker også flere parallelle self-attention-funksjoner, kalt multi-head attention (flerhodet oppmerksomhet), der hvert «hode» kan spesialisere seg på ulike typer sammenhenger mellom tokens.[7]
Den opprinnelige arkitekturen bestod av en enkoder som leser hele inngangssekvensen samtidig, og en dekoder som genererer utdata én token om gangen. Senere modeller bruker ofte bare én av disse delene: BERT (Bidirectional Encoder Representations from Transformers) bruker kun enkoderen,[12] mens GPT-modellene kun bruker dekoderen.[13]
En praktisk fordel med transformerarkitekturen er at self-attention kan beregnes parallelt for alle posisjoner i en sekvens, i motsetning til rekurrente nettverk der hvert tidssteg avhenger av det forrige. Dette gjør trening på store datamengder vesentlig raskere med moderne maskinvare.[7]
Trening
[rediger | rediger kilde]
Nevrale nett må trenes opp. Først trengs en kilde med korrekt rettskriving og grammatikk. Så må setningene deles opp i «tokens» som kan være ord, tegn eller f.eks. endinger som gjentas ofte i en tekst. Deretter starter treningen, som betyr at parametrene i hver node av det nevrale nettverket endres som følge av teksten som sendes inn og modellen som brukes, f.eks. transformer. Når modellen har lest gjennom hele kilden testes modellen, og på et spørsmål bør den da svare det mest sannsynlige ut fra treningen.[14]
Etter den helt grunnleggende opplæringen starter den mer detaljerte opplæringen. Flere språkmodeller har hatt «helpful, honest and harmless» (HHH) som et prinsipp, men å trene opp nettverket til å gjøre etiske valg krever kontinuerlig tilpasning.[15]
En metode er at et menneske gir rangerte tilbakemeldinger, og at nettverket får en slags belønning for gode svar, men menneskelig rangering har vist seg vanskelig. En mer effektiv metode kan være å sammenligne tekster fra to nevrale nettverk og si hvilken som er best.[16]
Alternativt kan noen parametere fryses slik at de ikke lenger kan endres. I et nettverk med milliarder av parametere der alle kan endre seg er det dyrt og vanskelig å fin-tune modellene. «Proximal policy optimization» (PPO) er en metode som begrenser hvor mye resultatet kan variere som følge av nye data. En annen metode er «skuespiller/kritiker-metoden» (A3C), der skuespilleren har fokus på hva som bør gjøres, mens kritikeren har fokus på resultatet. Ved å la både skuespillere og kritikere se på hva som skjer og gi tilbakemelding på ulike tidspunkter (asynkron) har metoden vist seg svært effektiv til trening f.eks. på dataspill.[17]
Utfordringer
[rediger | rediger kilde]En artikkel publisert i Nature viser at dersom innholdet modellen trenes mot også er skrevet av en kunstig intelligens, vil det oppstå irreversible defekter i resultatet, deler av det originale innholdet kan forsvinne og modellen vil over tid kunne kollapse.[18] I store språkmodeller, som ikke lett kan skille mellom data skrevet av mennesker eller AI, er denne effekten uunngåelig. Effekten fører til at noen deler av et innhold blir ekstra fremhevet, at uvanlige data undertrykkes, og tilleggsinformasjon som ikke har noe med saken å gjøre henges på.[18] Modellene blir altså for skråsikre (low perplexity) og for lite usikker om den trenes mot egne data.[19]
Det er også mulig å målrettet «forgifte» store språkmodeller slik at svarene styres i en bestemt retning, men det er vanskelig.[20]
Oppgaveløsning
[rediger | rediger kilde]En stor språkmodell kan ikke løse oppgaver på egenhånd, men ettersom modellene har potensiale for menneskelignende intelligens, forskes det på muligheten for å la KI basert på store språkmodeller ta selvstendige avgjørelser. [21]
I 2025 ble språkmodeller ansett for å være nyttige innenfor flere fagfelt:[22]
- Psykologi – Språkmodeller åpner for simulerte eksperimenter.
- Statsvitenskap – Språkmodeller klarer å kjenne igjen ideologi og forutsi stemmemønstre.
- Sosiologi – Eksperimenter som ellers er uetiske, f.eks. spredning av falsk informasjon, kan simuleres ved bruk av språkmodeller.
- Jus – Språkmodeller kan bidra til bedre dommer. ChatLaw, for advokater, svarer på lov-spørsmål som er utenfor advokatens ekspertise. Hallusinering er et stort potensielt problem og har derfor ekstra fokus i modellen.[23]
- Naturvitenskap – Språkmodeller kan lage gode sammendrag, både av artikler som må leses og av artikler som skrives. KI basert på store språkmodeller kan sortere og organisere data og kan brukes f.eks. til å forutsi om en blanding av kjemikalier kan være farlig. Verktøy som ChemCrow kan også brukes til å planlegge et eksperiment.
- Pedagogikk – Språkmodeller kan brukes til å løse matematikkproblemer og samtidig redegjør for metoden på en enkel måte. Verktøy som EduChat kan brukes til dialog der studenter eller lærere kan stille åpne spørsmål.
- Ingeniørfag – Programmering er noe språkmodell baserte verktøy er gode til. Både skriving, testing og feilsøking av kode gjøres raskt og effektivt av kunstig intelligens.
- Robotikk er et fagfelt der språkmodeller gjør det mulig å snakke til en robot slik at den forstår hva den skal gjøre. AutoGPT er et verktøy for automasjon, der roboten selv finner oppgaver og deler disse opp i deloppgaver roboten selv kan løse. I automatiske systemer er hallusinering et stort potensielt problem og kan føre til skade på utstyr eller miljø. Slike systemer kan også med vilje trenes opp for å skade, så alternative sikkerhetssystemer er nødvendige.
Referanser
[rediger | rediger kilde]- ↑ «Store språkmodeller (LLMs) og søk». www.tekna.no. Besøkt 26. juni 2025.
- ↑ Wold, Sondre (18. september 2024). «språkmodell». Store norske leksikon (på norsk). Besøkt 26. juni 2025.
- ↑ «Kva er ein stor språkmodell?». Helsedirektoratet (på norsk). Besøkt 26. juni 2025.
- ↑ «Alt du trenger å vite om språkmodeller: enkelt forklart • AIavisen». 15. november 2023. Besøkt 26. juni 2025.
- ↑ Goodman, Joshua (9. august 2001). «A Bit of Progress in Language Modeling». doi:10.48550/arXiv.cs/0108005. Besøkt 26. juni 2025.
- ↑ https://arxiv.org/pdf/1706.03762
- 1 2 3 4 5 6 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2. august 2023). «Attention Is All You Need». doi:10.48550/arXiv.1706.03762. Besøkt 26. juni 2025.
- ↑ Hern, Alex (14. februar 2019). «New AI fake text generator may be too dangerous to release, say creators». The Guardian (på engelsk). ISSN 0261-3077. Besøkt 26. juni 2025.
- ↑ «ChatGPT turns 1: How the AI chatbot has completely changed the world». euronews (på engelsk). 30. november 2023. Besøkt 26. juni 2025.
- ↑ Sharma, Shubham (20. januar 2025). «Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost». VentureBeat (på engelsk). Besøkt 26. juni 2025.
- ↑ Lin, Tianyang; Wang, Yuxin; Liu, Xiangyang; Qiu, Xipeng (2022). «A Survey of Transformers». AI Open. 3: 111–132. doi:10.1016/j.aiopen.2022.10.001. Besøkt 19. mars 2026.
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: 4171–4186. Besøkt 19. mars 2026.
- ↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya (2019). «Language Models are Unsupervised Multitask Learners» (PDF). Besøkt 19. mars 2026.
- ↑ «How to train a new language model from scratch using Transformers and Tokenizers». huggingface.co. Besøkt 26. juni 2025.
- ↑ Huang, Yue; Gao, Chujie; Zhou, Yujun; Guo, Kehan; Wang, Xiangqi; Cohen-Sasson, Or; Lamparth, Max; Zhang, Xiangliang (23. mai 2025). «Position: We Need An Adaptive Interpretation of Helpful, Honest, and Harmless Principles». doi:10.48550/arXiv.2502.06059. Besøkt 26. juni 2025.
- ↑ https://huggingface.co/blog/rlhf
- ↑ https://arxiv.org/pdf/1602.01783.pdf
- 1 2 Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Papernot, Nicolas; Anderson, Ross; Gal, Yarin (juli 2024). «AI models collapse when trained on recursively generated data». Nature. 8022 (på engelsk). 631: 755–759. ISSN 1476-4687. doi:10.1038/s41586-024-07566-y. Besøkt 5. januar 2026.
- ↑ «Perplexity for LLM Evaluation». GeeksforGeeks (på engelsk). 25. mars 2025. Besøkt 5. januar 2026.
- ↑ «Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated - OATML». oatml.cs.ox.ac.uk. Besøkt 5. januar 2026.
- ↑ Wang, Lei; Ma, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (2. mars 2025). «A Survey on Large Language Model based Autonomous Agents». doi:10.48550/arXiv.2308.11432. Besøkt 26. juni 2025.
- ↑ Wang, Lei; Ma, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (2. mars 2025). «A Survey on Large Language Model based Autonomous Agents». doi:10.48550/arXiv.2308.11432. Besøkt 26. juni 2025.
- ↑ https://arxiv.org/abs/2306.16092