Exjobb: Automatic Model Choice Evaluation

Skapa ett system som automatiskt utvärderar och väljer den mest kostnadseffektiva AI-modellen för varje typ av uppgift.

Vi kommer ha 10 000 olika arbetsuppgifter i vårt system. Sammanfatta ett mejl. Extrahera data ur ett kontrakt. Bevaka en Telegram-grupp. Skriva ett utkast till ett svar. Varje uppgift kan köras av dussintals olika modeller – Claude, GPT, Gemini, Llama, Mistral, Qwen, och fler varje vecka.

Vissa modeller är bra på allt men dyra. Andra är billiga men kraschar på komplexa uppgifter. Den rätta modellen beror på uppgiften. Idag väljer vi för hand. Det skalar inte.

Målet: Ett system som automatiskt bestämmer vilken modell som ska köra vilken uppgift – optimerat för bästa möjliga kvalitet till lägsta möjliga kostnad. Inte en gång, utan kontinuerligt, i takt med att nya modeller släpps och gamla blir billigare.

Vad projektet innebär

Uppgiftsklassificering: Kategorisera de arbetsuppgifter våra agenter utför. Vad kräver resonerande? Vad är ren textmanipulation? Vad kräver lång kontext? Vad är säkerhetskritiskt? Bygg en taxonomi som systemet kan använda automatiskt.
Automatisk utvärdering: Kör samma uppgift mot flera modeller och mät kvalitet, latens och kostnad. Kvalitetsmätning är den svåra biten – det kan vara LLM-as-judge, regelbaserat, eller en hybrid. Du undersöker vad som fungerar bäst för vilka uppgiftstyper.
Routing-beslut: Baserat på utvärderingsresultaten, bygg en routing-logik som automatiskt dirigerar nya uppgifter till den mest kostnadseffektiva modellen. Med konfigurerbar tröskel: "jag accepterar max 5% kvalitetstapp om det sparar 60% i kostnad."
Kontinuerlig uppdatering: Nya modeller släpps varje vecka. Systemet ska kunna köra om sina utvärderingar inkrementellt när en ny modell dyker upp, utan att börja om från noll.
Dashboard eller rapport: Visualisera pareto-fronten mellan kostnad och kvalitet per uppgiftstyp. Teamet ska kunna se: "för mejl-sammanfattningar är Llama 70B 90% lika bra som Claude men kostar 1/10."

Teknisk kontext

ClawBuddy kör på OpenClaw och har tillgång till hundratals modeller via ett enhetligt API, med enhetlig prissättning per token. Utmaningen är inte att anropa modellerna – det är att mäta kvalitet på ett sätt som går att automatisera och lita på.

Stack: Python. Eval-ramverk (eget eller befintligt som Promptfoo, Ragas, eller DeepEval). SQLite eller Postgres för resultatlagring.
Relevanta koncept: LLM-as-judge, multi-criteria evaluation, pareto-optimering, bandit-algoritmer (explore/exploit), kostnads-kvalitets-tradeoffs, regressions-tester.
Forskningsfrågor att utforska: Hur pålitlig är LLM-as-judge för olika uppgiftstyper? Kan man använda en billig modell som judge för att undvika att judging-kostnaden äter upp besparingen? Hur ofta behöver man köra om utvärderingen för att fånga modellförändringar?

Vad vi förväntar oss

Det här är ett examensarbete på civilingenjörsnivå (30 hp) eller motsvarande mastersnivå. Vi förväntar oss:

En vetenskaplig rapport som uppfyller kraven för examensarbete vid ditt lärosäte. Problemformulering, relaterat arbete, metod, experiment, resultat, diskussion.
En fungerande prototyp testad mot verkliga uppgifter från vår produktionsmiljö. Minst 5 uppgiftstyper, minst 5 modeller, med mätbar kvalitetsskillnad och kostnadsskillnad.
En kvantitativ analys av hur mycket kostnad som kan sparas vid given kvalitetströskel. Det är den siffran som avgör om systemet är värt att köra i produktion.
Ett publikt repo med dokumentation och reproducerbara experiment.
Regelbundna avstämningar med oss (veckovis eller varannan vecka). Du jobbar självständigt men inte ensam.

Du passar om du

Studerar civilingenjör datateknik, mjukvaruteknik, AI/ML, eller motsvarande på masternivå. Har erfarenhet av att jobba med LLM-API:er (OpenAI, Anthropic, eller liknande). Är intresserad av optimeringsproblem och gillar att mäta saker noggrant. Kan skilja ett bra experiment från ett som bara ser bra ut.

Om du har läst om eller implementerat eval-ramverk, bandit-algoritmer, eller kostnadsoptimering i ML-kontext – extra bra. Men det är inget krav.

Vi erbjuder

Kontor i Stockholm. Tillgång till vår produktionsmiljö med verkliga agentuppgifter, alla AI-modeller (vi betalar token-kostnaden för dina experiment), och ett team som bryr sig om det du bygger. Handledning från ingenjörer som jobbar med det här varje dag.

Om exjobbet går bra pratar vi gärna om vad som händer sen.

Så här söker du

Klicka på "Apply for this role"-knappen och fyll i formuläret. Berätta varför det här intresserar dig och länka gärna till något du byggt. Formell ansökan och CV behövs inte i första steget.