Large Language Models and the Swedish Language : A Comparison of Accuracy in Reading Comprehension, Quantitative Reasoning, and Mathematical Problem Solving / Stora Språkmodeller och Det Svenska Språket : En Jämförelse av Noggrannheten i Läsförståelse, Kvantitativa Resonemang och Matematisk Problemlösning
- Authors
- Publication Date
- Jan 01, 2024
- Source
- DiVA - Academic Archive On-line
- Keywords
- Language
- English
- License
- Green
- External links
Abstract
Many large language models have been evaluated on datasets assessing different capabilities in the English language, enabling models to be compared. However, there exist fewer datasets in the Swedish language, and also fewer comparisons. Reading comprehension, quantitative reasoning, and mathematical problem solving, are some capabilities that are commonly evaluated in English. In contrast, how these models perform in these capabilities in the Swedish language has not been as widely explored. The purpose was to compare how large language models measure against one another in reading comprehension, quantitative reasoning, and mathematical problem solving, respectively, in the Swedish language. The goal was to contribute to research in the applicabilities and capabilities of large language models in the Swedish language. The research was conducted using a qualitative methodology with a comparative method, supported by quantitative data. We collected tests that were originally designed for humans, to assess the large language models’ reading comprehension, quantitative reasoning, and mathematical problem-solving capabilities, in the Swedish language. The questions from the tests were processed into datasets. Three models were selected to be compared on the datasets with accuracy as the comparison criterion. The selected models were GPT-3.5 Turbo, Claude 3 Sonnet, and Gemini 1.0 Pro. We observed that Claude 3 Sonnet performed the best in quantitative reasoning and mathematical problem solving, respectively, in the Swedish language, while Gemini 1.0 Pro performed the best in reading comprehension in the Swedish language. Although we are unable to generalize the findings, the work can be useful as a starting point for more comprehensive research. / Ett flertal stora språkmodeller har utvärderats på dataset, vilka bedömmer olika förmågor i det engelska språket, något som har möjliggjort jämförelser av olika språkmodeller. I det svenska språket däremot finns färre dataset och därmed även färre jämförelser. Läsförståelse, kvantitativa resonemang och matematisk problemlösning, är några förmågor som ofta blivit utvärderade i det engelska språket. Hur bra språkmodellerna är i tidigare nämnda förmågor i det svenska språket, har inte blivit utforskat i samma utsträckning. Syftet var att jämföra hur stora språkmodeller presterar i läsförståelse, kvantitativa resonemang och matematisk problemlösning, var för sig, i det svenska språket. Målet var att bidra till forskningen om stora språkmodellers tillämpningar och förmågor i det svenska språket. Forskningen bestod av en kvalitativ metodik med en jämförande metod, stödd av kvantitativa data. För att bedöma språkmodellernas förmåga i läsförståelse, kvantitativa resonemang och matematisk problemlösning, i det svenska språket, samlades prov in som ursprungligen syftar till att testa dessa förmågor hos människor. Provfrågorna användes för att skapa dataset i syfte att jämföra tre utvalda språkmodeller, med noggrannhet som jämförelsekriterium. De språkmodeller som ingick i jämförelsen var GPT-3.5 Turbo, Claude 3 Sonnet och Gemini 1.0 Pro. Våra observationer visade att Claude 3 Sonnet presterade bäst i såväl kvantitativa resonemang som matematisk problemlösning, i det svenska språket, medan Gemini 1.0 Pro presterade bäst i svensk läsförståelse. Även om våra resultat inte kan generaliseras kan vårt arbete vara användbart som utgångspunkt för vidare forskning.