MMLU

Innen: testwiki
Ugrás a navigációhoz Ugrás a kereséshez

A mesterséges intelligencia területén a Massive Multitask Language Understanding (MMLU) egy mérce a nagy nyelvi modellek képességeinek értékelésére. Az MMLU egy átfogó teszt, amely nagyjából 16 000 feleletválasztós kérdést tartalmaz, és 57 különböző tudományterületet ölel fel, beleértve a matematikát, a filozófiát, a jogot és az orvostudományt. Ez az egyik leggyakrabban használt benchmark a nagy nyelvi modellek tudásának összehasonlítására.[1]

Mércék (benchmark)

Az MMLU-t Dan Hendrycks és kutatócsoportja fejlesztette ki, és 2020-ban tették közzé, hogy egy kihívást jelentő mércét biztosítsanak a nyelvi modellek számára.[2] A korábbi benchmarkok, mint például a GLUE (General Language Understanding Evaluation), már nem jelentettek igazi nehézséget, mivel az újabb modellek könnyedén túlszárnyalták az emberi teljesítményt. Az MMLU megjelenésekor a legtöbb akkori nyelvi modell a véletlenszerű találgatás szintjén (25%) teljesített, a legjobb GPT-3 modell pedig 43,9%-os pontosságot ért el. A benchmark készítői szerint a szakterületükön jártas szakértők körülbelül 89,8%-os pontosságot érnek el az MMLU-n. 2024-re a legfejlettebb modellek – mint például az o1, a Gemini és a Claude 3 – már megközelítették vagy elérték a 90%-os pontosságot, ezzel az emberi szakértői szinthez közelítő teljesítményt mutatva.[3]

Az MMLU felépítése egyedülállóan összetett: a kérdések száma és a témakörök sokfélesége miatt jelentősen nehezebb, mint a korábbi mércék. Egy szakértői elemzés, amely az 57 témakörből 5700 kérdést vizsgált, megállapította, hogy a kérdések 6,5%-ában valamilyen hiba található (pl. kétértelmű megfogalmazás vagy hibás válaszlehetőségek).[4] Ez arra utal, hogy az MMLU maximálisan elérhető pontszáma nem éri el a 100%-ot, ami további kihívást jelent a modellek számára.

Példák

Az alábbiakban két konkrét példát mutatunk be az MMLU kérdéseiből, hogy az olvasók jobban megértsék a teszt jellegét. A helyes válaszok vastag betűvel vannak kiemelve:

Absztrakt algebra

Kérdés: Találja meg az összes c elemet a 3 halmazban, amelyre 3[x]/(x2+c) egy testet alkot.

  • (A) 0
  • (B) 1 (helyes)
  • (C) 2
  • (D) 3

Nemzetközi jog

Kérdés: Elfogadható lenne-e a kínzás definíciójára vonatkozó fenntartás az ICCPR-ben a mai gyakorlat szerint?

  • (A) Ez egy elfogadható fenntartás, ha a fenntartást tevő ország jogszabályai eltérő meghatározást alkalmaznak
  • (B) Ez egy elfogadhatatlan fenntartás, mert ellentétes az ICCPR céljával és rendeltetésével (helyes)
  • (C) Ez egy elfogadhatatlan fenntartás, mert az ICCPR kínzásra vonatkozó meghatározása összhangban van a szokásjoggal
  • (D) Ez egy elfogadható fenntartás, mert az általános nemzetközi jog szerint az államoknak joguk van fenntartásokat fűzni a szerződésekhez

Használata és jelentősége

Az MMLU-t széles körben alkalmazzák a mesterséges intelligencia kutatásában, hogy teszteljék a nyelvi modellek általános tudását és problémamegoldó képességét. A benchmark nehézségi szintje és átfogó jellege miatt különösen alkalmas arra, hogy megkülönböztesse a legfejlettebb modelleket a kevésbé fejlett társaiktól.[5] Az évek során a modellek teljesítménye jelentős fejlődést mutatott: míg 2020-ban a GPT-3 43,9%-os eredménye volt a csúcs, addig 2024-re a legújabb modellek már az emberi szakértők szintjét közelítik meg.[6]

Ranglista (Leaderboard)
Szervezet LLM MMLU
OpenAI o1 91.8%
DeepSeek DeepSeek R1 90.8%
Anthropic Claude 3.5 Sonnet 88.7%
Meta Llama-3.1 405B 88.6%
xAI Grok-2 87.5%
Anthropic Claude 3 Opus 86.8%
Meta Llama-3.1 70B 86.0%
Google Gemini-1.5 Pro 85.9%
Inflection Inflection-2.5 85.5%
Mistral Mistral Large 2 84.0%
Reka Reka Core 83.2%
AI21 Jamba-1.5 Large 81.2%

Jegyzetek

Sablon:Jegyzetek

Fordítás

Sablon:Fordítás

Források

  • Hendrycks, D. et al. (2020). „A tömeges többfeladatos nyelvi megértés mérése”. arXiv:2009.03300. arXiv.
  • „MMLU adathalmaz a Papers with Code oldalon”. Papers with Code. Papers with Code.
  • „A nyelvi modellek holisztikus értékelése (HELM) – MMLU”. Stanford CRFM. HELM.
  • Chen, H. et al. (2023). „CMMLU: A tömeges többfeladatos nyelvi megértés mérése kínai nyelven”. arXiv:2306.09212. arXiv.
  • Zhang, Y. et al. (2024). „MMLU-Pro: Egy robusztusabb és nagyobb kihívást jelentő többfeladatos nyelvi megértési mérőszám”. arXiv:2406.01574. arXiv.

További információk

  1. Sablon:Cite news
  2. Sablon:Cite web
  3. Forrás szükséges a 2024-es modellek pontos teljesítményéhez.
  4. Sablon:Cite web
  5. Sablon:Cite web
  6. Sablon:Cite web