Nationella prov – gör om gör rätt!

I skolans värld går vi nu in i en period med nationella prov. För många av oss som arbetar i skolan medför detta en stor påverkan på vårt arbete. Lärare som undervisar i ämnen och kurser som ska prövas anpassar sin undervisning och gör sitt bästa för att förbereda sina elever. Men de nationella proven påverkar även andra lärare och ämnen eftersom de även leder till omfattande schemaändringar och förskjutningseffekter. Kostnaderna för att utveckla och administrera proven är även de betydande, för att inte nämna arbetet med att digitalisera dem. Till detta kommer all den stress som de nationella proven orsakar, särskilt för våra elever. Vi behöver därför fråga oss om denna påverkan och dessa kostnader är motiverade? Svaret på den frågan är inte helt uppenbar. Jag vill mena att dagens nationella prov är problematiska av flera skäl, och för att kunna motivera dem behöver de omformas från grunden.

Det största problemet är provens dubbla syften. En vanlig missuppfattning är att nationella prov är slutprov i ett ämne eller en kurs. Det är de inte. De nationella proven infördes 1997, som en ersättning för de äldre centrala proven, och som en följd av de omfattande skolreformerna i början av 1990-talet. Proven utformades med tre uttalade övergripande syften: betygsstödjande, utvärderande och formativa. Den formativa aspekten innebar att proven skulle tjäna som en kontrollpunkt för att möjliggöra anpassningar under pågående undervisning. Det är uppenbart att en sådan ambition är oförenlig med ett summativt slutprov. Över tid har det uttalade formativa syftet tagits bort men utformingen av proven är i stort sett fortfarande samma som när de introducerades. Om vi önskar summativa prov vars resultat ska vägas in vid betygssättning, behöver dessa prov genomföras i slutet av terminen och pröva ämnes- och kursinnehåll på ett sätt som är relevant för betygsättningen. Vill vi ha formativa tester som stödjer lärare och elever för att kunna förbättra pågående undervisning och lärande, behöver vi utforma dessa så att de testar delar av ämnes- och kursinnehållet så att lärare kan använda resultaten på ett meningsfullt sätt. Dagens nationella prov strävar efter att uppnå båda dessa mål samtidigt, vilket är acceptabelt enbart under förutsättning att man erkänner att det inte är möjligt att helt och hållet realisera något av målen.

Ytterligare ett problem med de nationella proven, som ligger i linje med ovanstående problematik, är hur de har börjat användas för att hantera betygsinflation och ökande ojämlikhet i skolan. Idén om att resultaten från de nationella proven ska vägas in vid betygssättningen bygger delvis på föreställningen att proven är relevanta för detta ändamål (vilket följdaktligen går att diskutera), och delvis på tanken att man kan lösa ett problem genom att hantera dess symtom. Att använda de nationella proven som en lösning på ett djupare systemfel bör därför ses som en akutåtgärd snarare än som en hållbar lösning på lång sikt.

När vi talar om de nationella proven och de problem som följer med dessa går det numer inte heller att bortse från projeket att digitalisera dem. Skolverket har arbetat med detta sedan 2017. Den ursprungliga ambitionen var att alla nationella prov skulle vara helt digitaliserade till 2022, men målet är nu justerat till hösten 2024 och omfattar initialt inte alla ämnen eller årskurs 3. Skolverkets interna utredning har dock visat att det justerade målet inte kommer att kunna uppnås helt (Strategirådet, 2023). Efter att personligen både ha deltagit i och studerat projektet, är min slutsats att det har stora problem som helhet och omgående borde granskas externt av oberoende part. Problemen stannar dock inte vid eskalerande kostnader och ett troligt icke fungerande provsystem. Att elever tycks prestera sämre när de går från att genomföra prov med papper och penna till att skriva dem på dator är ett lika allvarligt och tillika förbisett faktum. Att läsförståelse är svårare vid läsning på digitala enheter än motsvarande på papper är relativt väl påvisat (Delgado et al., 2018), men skillnaden mellan att skriva prov digitalt jämfört med på papper är mindre utforskad. Den hittills enda större studien på området undersökte införandet av digitala prov under 2015 och 2016 i USA (Backes & Cowan, 2019). Resultatet visade att elever presterade betydligt sämre på de digitala proven. Den statistiska försämringen motsvarade ungefär ett läsårs progression, det vill säga en elev i årskurs 8 presterade på ett digitalt prov som om denne hade gått i årskurs 7.


Grafen visar standardiserad prestation per år. Från artikeln Is the pen mightier than the keyboard? The effect of online testing on measured student achievement. Backers & Cowan, 2019.

Varför eleverna presterade sämre på de digitala proven framgår inte av studien. Sämre läsförståelse på skärm, allmän datorovana och ovana vid att genomföra prov digitalt kan vara bidragande faktorer. Men en ytterligare rimlig orsak är ovanan vid det faktiska provsystemet. Förtrogenhet med menyer, var knappar sitter och generell funktionalitet spelar sannolikt stor roll. Skolverkets beslut att utveckla ett eget digitalt provsystem som endast får användas vid nationella prov, samtidigt som våra elever behöver skriva alla övriga digitala prov i andra system, är därför mycket olyckligt. En bättre lösning hade varit att sätta upp standarder för de nationella proven som olika leverantörer gavs möjlighet att möta och därigenom skapa incitament för befintliga provsystem på marknaden att utvecklas, samt möjliggöra att elever fick skriva nationella prov i system de känner sig förtrogna med. En sådan lösning hade därtill minskat kostnaderna för huvudmän och skolor samt resulterat i provresultat med bättre validitet.

Det är dock viktigt att notera att man utifrån nämnda studie inte automatiskt kan dra slutsatsen att digitala prov är sämre än analoga. De försämrade provresultaten kan också bero på själva bytet från ett format till ett annat. Om vi exempelvis skulle designa ett prov för ett digitalt format och sedan låta elever genomföra samma prov med papper och penna skulle vi kanske se en liknande försämring. Det centrala är att vara medveten om att provformatet påverkar reliabiliteten, det vill säga hur tillförlitlig mätningningen är. Det digitala formatet, och den utveckling vi nu erfar inom generativ AI, öppnar dessutom upp för nya och potentiellt sätt bättre sätt att utforma prov. Ta ett traditionellt hörförståelseprov där elever får lyssna till en dialog på exempelvis engelska och därefter skall svara på frågor om innehållet. Mäter ett sådant provet den faktiska språkliga färdigheten eller störs mätningen av att även minne och koncentrationsförmåga spelar roll? Här kan vi leka med tanken om en testsituation där elever i stället fick prata med en välfungerande adaptiv AI-bot som också sannolikt skulle kunna fungera som ett bättre mätinstrument.

Sammanfattningsvis. Det vi borde göra är att gå tillbaka till början och ställa oss frågan varför vi ska ha nationella prov. Först när vi enats om ett svar bör vi utforma dessa prov så att de fyller sitt syfte. Att som idag försöka lösa ett problem med något som inte är utformat för ändamålet är lika symptomatiskt som det är dumdristigt. Att försöka hantera problemet med betygsinflation genom att väga in resultat från digitala nationella prov kan liknas vid att ställa ut hinkar när ett tak läcker. Det är rimligt i ett akut skede, men det är inte en hållbar lösning på längre sikt. Taket behöver läggas om.

Referenser

Backes, B., & Cowan, J. (2019). Is the pen mightier than the keyboard? The effect of online testing on measured student achievement. Economics of Education Review, 68, 89–103. https://doi.org/10.1016/j.econedurev.2018.12.007

Delgado, P., Vargas, C., Ackerman, R., & Salmerón, L. (2018). Don’t throw away your printed books: A meta-analysis on the effects of reading media on reading comprehension. Educational Research Review, 25, 23–38. https://doi.org/10.1016/j.edurev.2018.09.003

Strategirådet. (2023). Utvärdering av DNP- delstudie 1, utvärdering på uppdrag av Skolverket.

Hur skulle Beatles 13e album ha låtit?

I dagarna släppte The Beatles en ny singel, Now and then. 53 år efter att bandet upplöstes.

John Lennon skrev låten 1970, när Beatles fortarande fanns. Sju år senare sjöng han in en demo. Med hjälp av AI har kvalitén på denna demo förbättrats. Resten är ett ihopplock. George Harrisons gitarr kommer från en inspelning gjord 1995. I nutid har Ringo Starr och Paul McCartney adderat trummor, gitarr och piano. Det låter fantastiskt. Alex Schulman skrev i en krönika i DN att han lyssnade på låten medan han körde bil och blev så tagen att han fick stanna och gråta. Överdrivet? Nej, för jag erfor faktiskt precis samma sak. Det är märkligt det där, vad musik kan göra med en.

Vi har alla våra favoritartister och ofta anser vi att ett visst album, eller en viss period var artistens peak. Ofta är det något som vi vill ha mer utav, och med AIs hjälp kommer vi att få detta (eller åtmindstone illusionen av det). Denna utveckling kommer att leda till att för den som exempelvis tyckte att Depeche Mode spårade ur efter Violator, men som ändå vill ha fler Depeche Mode-album, kommer att kunna få låtar genererade som är unika men som låter som Depeche Mode lät runt 1990.

Det är inte science fiction. Tekniken är redan här. Beatles Now and Then är bara ett i raden av exempel. Det kommer att komma mer. Teknikutvecklingen gör det allt enklare och mer tillgängligt, och efterfrågan kommer inte att saknas. Men det väcker också frågor. Hur tänker vi med upphovsrätten? Kan man kräva upphovsrätt på ett uttryck och sound?

Men kanske är de främsta frågorna hur vi skall förhålla oss till det hela och vad detta gör med oss. Om jag reflekterar över mitt eget musiklyssnande erfar jag tydligt hur detta har förändrats med streaming. När jag som fattig student åkte till Skivhugget eller Bengans för att köpa en skiva så var det en investering. Det gav ett incitament till att verkligen lyssna på den där skivan, och på de där spåren som jag numera allt för enkelt kan hoppa över. Men så här i efterhand är många av spåren med lite initialt motstånd de som jag kommit att uppskatta mest. Så vad händer när vi allt mer matas av minsta möjliga motstånd? Samtidigt som The Beatles Now and Then verkligen berörde mig.

Vad tänker du?

Tips! För alla musikintresserade rekomenderar jag Rick Beato s YouTube-kanal där han för ett tag sedan just adresserade AI-genererad musik.

Möt en doktorand…

Institutionen för tillämpad IT har man under försommaren producerat tre filmer som presenterar tre av institutionens doktorander. En av dem var jag, och den filmen ser ni nedan. De andra två doktoranderna var mina fina kollegor Christina Löfving och Leman Isik.

AI i högre utbildning – Reflektioner kring UNESCOS vägledning

Den 26 maj deltog jag i en pandiskussion utifrån UNESCOS nyligen framtagning vägledningsdokument angående AI i högre utbildning.

Övriga i panelen var:

Agneta Gulz, professor i kognitionsvetenskap vid Lunds universitet och Linköpings universitet
Jonas Ivarsson, professor i informatik vid Göteborgs Universitet
Carl Heath, senior forskare på RISE
Jonna Bornemark, professor i filosofi vid Södertörns högskola

Samtalet leddes av professor Jonas Linderoth vid Göteborgs Universitet.

Därför riskerar AI att göra oss mindre kompetenta

Häromdagen, den 15 mars, lanserade OpenAI deras nyaste språkmodell GPT4. Dagen efter, den 16 mars, presenterade Microsoft sin nya AI-assistent Copilot. Med hjälp av denna kan du komma in sent på ett Teams-möte direkt få en sammanfattning av vad som har sagts, du kan generera PowerPoint-presentationer automatiskt, göra omedelbara avancerade analyser i Excell och så vidare.

Även Google har utannonserat liknande tillägg för deras tjänster (här är det värt att som verksam inom skola stanna upp och reflektera över all den information som vi matat in i dessa system genom Googles programsvit. Varför tror ni att det har varit gratis?). Det är svårt att se och uppleva detta och inte tappa hakan.

Pedagogiska faror

Denna utveckling kommer att ha en stor påverkan på våra liv. Men vad kommer den att ha för påverkan på skolan? Möjligheterna är såklart stora. I samband med lanseringen av GPT4 demonstrerade exempelvis Khan Academy hur de byggt in GPT4 i rollen som hjälplärare. Det såg ut att fungera förbluffande bra. Att som elev ha den omedelbara tillgången till hjälp är givetvis fantastiskt.

Men jag ser också några pedagogiska faror med tekniken. En av dessa är att vi med AI automatiserar bort de processer som utvecklar oss. Det är en sak att låta AI fungera som en hjälplärare, men låter jag AI utföra ett arbete för mig är det något annat.

Och om AI utför ett arbete för mig är det i sammanhanget viktigt att reflektera över huruvida jag hade eller inte hade kunnat utföra detta arbete själv.

Aldrig varit så snabb

Låt mig ta demonstrationen av GPT4 som ett exempel. En av de saker som OpenAI:s chef och medgrundare, Greg Brockman, visade var hur GPT4 utifrån ett fotografi av en slarvigt nedtecknad beskrivning av en webbsida på några sekunder skrev en fungerande kod för just denna hemsida. Aldrig har processen från tanke till färdig produkt varit så snabb.

Men i förbifarten poängterade Brockman att det är viktigt att som användare läsa igenom koden, att inte köra ogranskad kod. För de som såg Open AI:s och Brockmans demonstration var rimligtvis de flesta imponerade över GPT4:s förmågor. Men det blev också uppenbart att Brockman är en synnerligen kompetent programmerare. Han kunde enkelt se och förklara den kod som systemet skrev fram.

För programmerare som Brockman blir GPT4 en medhjälpare som kan snabba på, utveckla och förbättra processer oerhört. Ett fantastiskt verktyg! Men det är alltså just här som jag menar att det finns en hake.

Haken är att de processer som AI kan automatisera och avlasta för Brockman är samma processer som, när han själv utfört dem är de som lagt grunden för hans nuvarande kompetens. Frågan är vad som kommer att hända med våra lärprocesser när utvecklingen inom AI möjliggör dessa ”genvägar”?

En konsekvens är rättning

För oss i skolan får detta konsekvenser. Många konsekvenser. Här och nu vill jag lyfta en sådan konsekvens som vi behöver prata om. Rättningen.

System som GPT4 är väldigt bra på att bedöma text. Det är bara en tidsfråga innan vi kommer att få texter bedömda, formativt och summativt, direkt i Google Classroom och Google Docs, i Office 360 och i våra digitala provplattformar.

Att använda AI för detta kommer att spara mycket tid och frustration. Alla lärare som suttit sent en söndagskväll med femtielva uppsatser kvar att rätta vet vad jag pratar om. Finns det då en knapp att trycka på för att få arbetet slutfört på bråkdelen av en sekund… ja, då kommer det att vara väldigt svårt att inte trycka på den knappen.

Problemet är att för att vara en bra lärare behöver man ha kunskap om vilka fel elever gör, vilka saker som de tycker är svåra. Därför är rättning en helt nödvändig förutsättning för god undervisning. Om vi automatiserar bort den arbetsuppgiften blir vi därför så att säga dubbelt straffade – vi riskerar inte bara förmågan att bedöma text, vi riskerar också att bli sämre på att undervisa. I sammanhanget får vi heller inte glömma att betygsättning är ett myndighetsutövande.

Är vi trygga med att låta AI få en allt större roll i detta?

AI tvingar oss att göra det

Men, tekniken går inte att bromsa. Och missta ta mig inte. Jag är ALL FOR den nya teknologin. Jag är tacksam att få leva nu och erfara detta tekniksprång som vi faktiskt befinner oss i. Men vi måste också stanna upp och inte helt svepas med i det teknologiska bländverket.

Det centrala är att designa system där dessa system arbetar med och för oss, och inte emot oss. Jag ser framför mig behovet av system där exempelvis vanliga fel som elever gör identifieras och visualiseras, system som väljer ut ett par texter som det kan vara givande att faktiskt läsa.

Men för att möjliggöra detta behöver vi identifiera och värdesätta dessa processer, och jag vill mena att utvecklingen av AI tvingar oss till att göra just det. Om vi inte gör det riskerar utvecklingen att faktiskt göra oss mindre kompetenta.

Texten är publicerad i tidiningen Vi Lärare den 17 mars 2023

AI har dödat den skrivna hemuppgiften

Olika aspekter av artificiell intelligens (AI) har blivit en naturlig del av vår vardag. Genom AI får vi musik- och filmförslag via våra strömningstjänster. Vi kan förvandla svartvita bilder till färg, och få dem att sjunga. Den största påverkan av AI sker dock i det dolda utan att vi märker det. Inom utbildningssektorn finns exempelvis numera AI-teknik obemärkt integrerad i såväl lärplattformar som läromedel.

En av de senaste AI-teknikerna är GPT-3 (Generative Pre-trained Transformer 3). Det rör sig om en så kallad autoregressiv språkmodell som använder djupinlärning för att producera människoliknande text. I praktiken innebär det att man matar in vad för sorts text man önskar att GPT-3 skall generera, och på ett par sekunder skrivs texten fram.

Författaren Arthur C. Clark lär ha sagt att tillräckligt avancerad teknik inte går att skilja från magi, och magi är rimligtvis något många kommer att tänka på när de prövar GPT-3 för första gången. Det fungerar otroligt bra.

Nedan följer en text skriven av en fritt tillgänglig och gratis version av GPT-3. Jag gav den i uppgift att författa en text på max 200 ord som diskuterade relationen mellan religion och vetenskap. Anledningen till detta val av uppgift är att jag som religionslärare på gymnasiet förväntas pröva elevers förmåga att just analysera relationen mellan religion och vetenskap, vilket ofta är en svår uppgift för eleverna. Uppgiften förutsätter en god förståelse för de olika begreppen samt förmåga att jämföra och problematisera dessa.

I exemplet användes en tjänst som i nuläget endast finns på engelska. Den genererade texten översatte jag därför till svenska genom Google translate. Utöver detta har texten inte manipulerats på något sätt.

Vetenskap och religion ses ofta som två motsatta krafter, men i verkligheten är de mycket mer sammanflätade än vad de flesta inser. Både vetenskap och religion bygger på tro – tro på sinnenas bevis respektive tro på en högre makt.

Både vetenskap och religion gör anspråk om universums natur och vår plats i det. Vetenskapen försöker förklara den naturliga världen genom observation och experiment, medan religion förlitar sig på uppenbarelse och tro.

Trots sina olikheter har vetenskap och religion ett gemensamt mål: att förstå och förklara universum. På många sätt är de två sidor av samma mynt.

Det går inte att förneka att vetenskap och religion har haft sin del av konflikten. Men i slutändan är båda väsentliga delar av den mänskliga upplevelsen. Vi behöver vetenskap för att förstå världen omkring oss, och vi behöver religion för att ge mening åt våra liv.

Som vi ser klarar GPT-3 av uppgiften relativt väl. I den genererade texten problematiseras och nyanseras begreppen. Av utrymmesskäl och för att få fram min poäng valde jag här att generera en relativt kort text, men i den aktuella AI-tjänsten går det idag att generera texter upp till 16 000 tecken. Det går också att be systemet att skriva andra sorters texter såsom exempelvis noveller, dikter eller manus till argumenterande tal. Systemet klarar i princip alla dessa uppgifter galant. Det går att ställa in olika stilnivåer. Systemet hanterar även i viss utsträckning fotnoter.

Det är också viktigt att uppmärksamma att den genererade texten ovan är unik. Ger man systemet samma uppgift igen författas en ny text. System för plagiatkontroll såsom Ourignal (före detta ”Urkund”) är därför helt chanslösa.

Är du en lärare som använder dig av examinerande skrivuppgifter där du inte övervakar skrivprocessen kommer du med stor sannolikhet att möta den här typen av AI-genererade texter. Kanske har du ovetandes redan gjort det.

Så hur skall vi hantera detta?

För det första: Vi behöver sluta helt med examinerande skrivuppgifter som elever genomför utanför lärares kontroll. Anledningen är dock inte helt nyuppkommen i och med denna nya AI-teknik. Elever har sedan urminnes tider fuskat genom att låta andra personer ”hjälpa” dem med examinerande hemuppgifter. Det nya med GPT-3 är att ”hjälpen” blir väldigt mycket mera tillgänglig.

Sedan finns det även fler argument för att sluta med examinerande hemuppgifter. Vi vet att olika elever har olika förutsättningar för att skriva hemma. Det är därför skolans uppgift att verka kompensatoriskt och eftersträva examinerande situationer som är så likvärdiga som möjligt, vilket i princip är omöjligt utanför skolan.

För det andra: Examinerande skrivuppgifter behöver genomföras i säkrade skrivmiljöer, exempelvis genom att använda digitala provtjänster. Sedan ökade krav på det digitala genomförandet av nationella prov i svenska, engelska och svenska som andraspråk har idag de flesta hög- och gymnasieskolor sådana system. Använd dem. Ofta. Men inte endast vid examinerande uppgifter.

Svensk skola behöver färre examinerande prov, inte fler. Vi vet att elever mår allt sämre till följd av en ökande prov- och betygsstress. Därför är det viktigt att lärare skiljer mellan de moment som är examinerande och de som inte är det. Genom att regelbundet använda digitala provtjänster vid moment som inte är betygsgrundande blir elever och lärare mer trygga i användningen, vilket rimligtvis leder till bättre validitet vid examinerande uppgifter.

För det tredje: Använd och utforska tekniken! GPT-3 kan fungera som ett givande verktyg för kreativitet. Varför inte låta GPT-3 skriva en inledning på en novell eller en debattartikel för att sedan låta elever fortsätta? Generera texter som kan fungera som underlag för diskussioner om stil och språk. Låt arbete med GPT-3 leda till samtal om framtiden, gränsen mellan människa och maskin. Endast den pedagogiska fantasin sätter gränser.

Texten är publicerad i tidiningen Skolvärlden den 31 maj 2022.