Prompttervezés

A prompttervezés (prompt engineering) a mesterséges intelligencia modell által értelmezhető és megérthető utasítások (promptok) strukturálásának a folyamata.^[1]^[2] A prompt egy természetes nyelvű szöveg, amely leírja a feladatot, amit az MI-nek végre kellene hajtania:^[3] a nyelvi modell szövegről szövegre generálásra utasítása lehet egy kérdés, például, hogy „Mi a kis Fermat-tétel?";^[4] egy parancs, mint például az, hogy „Írjon verset a lehulló levelekről";^[5] vagy egy, a kontextust, az utasításokat,^[6] és a beszélgetés történetét is magában foglaló, hosszabb állítás.

A prompt tervezése magában foglalhatja egy lekérdezés megfogalmazását; egy stílus meghatározását;^[5] a releváns kontextus ismertetését;^[7] vagy egy szerep hozzárendelését az AI-hoz, például azt, hogy "viselkedj úgy mint egy francia anyanyelvű".^[8] Az utasítás tartalmazhat néhány példát, amelyből a modell tanulhat - például megkérheti a modellt, hogy egészítse ki a következő logikai sort: "maison → ház, chat → macska, chien → ? " (a várt válasz: kutya) - ezt a megközelítést few-shot learning-nek (kevés adatból történő tanulásnak) nevezzük.^[9]

Mikor egy szövegről képre vagy szövegről hangra generáló modellel kommunikálunk, egy tipikus felszólítás a kívánt kimenet leírása, például "jó minőségű fénykép egy lovagló űrhajósról"^[10] vagy "Lo-fi lassú BPM elektrohűtés szerves mintákkal".^[11] Egy szövegről képre generáló modell utasítása tartalmazhatja szavak hozzáadását, eltávolítását, kiemelését és átrendezését a kívánt téma, stílus,^[1] elrendezés, hangsúly^[12] és esztétikai célok elérése érdekében.

A kontextuson belüli tanulás

A prompttervezést a kontextuson belüli tanulás teszi lehetővé, amelyet egy modellnek az utasításokból való ideiglenes tanulási képességeként definiálunk. A kontextuson belüli tanulás képessége a nagy nyelvi modellek felbukkanó képessége^[13]. Maga a kontextuson belüli tanulás a modell léptékének egyik felbukkanó tulajdonsága, ami azt jelenti, hogy a downstream skálázási törvényekben olyan megszakítások^[14] [breaks] fordulnak elő, amelyek hatékonysága eltérő mértékben növekszik a nagyobb és a kisebb modellekben.^[15]^[16]

Az egyes feladatokra vonatkozó, nem ideiglenes képzésekkel és finomhangolásokkal, ellentétben, a kontextuson belüli tanulás során elsajátított dolgok átmeneti jellegűek. Nem hordozzák az ideiglenes kontextusokat vagy torzításokat, kivéve azokat, amelyek már jelen vannak az (elő)képzési adatkészletben, egyik beszélgetésről a másikra.^[17] Ez a transzformer rétegeken belüli „köztes-optimalizálás” [mesa-optimization] ^[18] eredménye, amely a metatanulás [meta-learning], vagyis a „tanulás tanulásának” egy formája.

Történelem

Először 2018-ban javasolták a kutatók, hogy minden, az NLP- ben (natural language processing, természetes nyelv feldolgozás) korábban különálló feladatnak, egy kontextuson felül álló, kérdés megválaszolási problémaként kellene szerepelnie. Ezen kívül, kiképezték az első egyedi, egyesített, többfeladatos (multi-task) modellt, amely bármely, a feladattal kapcsolatos kérdésre válaszolhat - például olyanokra, hogy: „Milyen a hangulat?" vagy „Fordítsd le ezt a mondatot németre." vagy „Ki az elnök?".^[19]

2021-ben a kutatók egy generatívan előképzett modellt, (a T0-t) 12 NLP- feladat végrehajtására finomhangoltak (62 adatkészlet felhasználásával, ahol minden feladatnak több adatkészlete is lehetett). A modell jó teljesítményt mutatott az új feladatokban, felülmúlva azokat a modelleket, amelyeket közvetlenül csak egy feladat elvégzésére képeztek ki (előképzés nélkül). Egy-egy feladat megoldásához, T0 egy strukturált promptban kapta meg a feladatot - például egy arra való utasításként, hogy hozza létre a „következmény" változót: If {{premise}} is true, is it also true that {{hypothesis}}? ||| {{entailed}}.^[20]

Egy utasítástár (repository for prompts) feljegyzése szerint 2022 februárjában körülbelül 170 adatkészlethez több mint 2000 nyilvános utasítás volt elérhető.^[21]

AÍ Google kutatói 2022-ben javasolták a gondolatlánc promptolási technika használatát. ^[22]

2023-ban számos szövegről szövegre és szövegről képre generálásra irányuló promptadatbázis volt nyilvánosan elérhető.^[23]^[24]

Szövegről szövegre

Gondolatlánc

A gondolatlánc (Chain-of-thought, CoT) promptolás egy olyan technika, amely lehetővé teszi a nagy nyelvi modellek (LLM) számára, hogy közbenső lépések sorozataként oldjanak meg egy problémát^[25] mielőtt végső választ adnának. A gondolatlánc promptolás javítja az érvelési képességet azáltal, hogy arra készteti a modellt, hogy egy többlépcsős problémára válaszoljon olyan érvelési lépésekkel, amelyek egy gondolatmenetet utánoznak.^[26]^[16]^[27] Lehetővé teszi a nagy nyelvi modellek számára, hogy leküzdjék a nehézségeket néhány olyan érvelési feladat során, amelyek megoldása logikai gondolkodást és több lépést igényel, mint például a számtani feladatok, vagy a józan észen alapuló érvelési kérdések.^[28]^[29]^[30]

Például, adott a következő kérdés: "K(érdés): A kávézónak 23 almája volt. Ha 20-at felhasználtak az ebéd elkészítéséhez, és vettek még 6-ot, mennyi almájuk van?", a CoT prompt arra késztetheti az LLM-et, hogy így válaszoljon: "V(álasz): A kávézónak eredetileg 23 almája volt. 20 almát használtak fel az ebéd elkészítéséhez, így maradt 23-20 = 3 almájuk. Vettek még 6 almát, így a kávézónak 3 + 6 = 9 almája van. A válasz: 9.^[16]

Az eredeti javaslatnak megfelelően^[16] minden CoT prompt tartalmazott néhány kérdés-felelet (Q&A) példát. Ez tette kevés adatot tartalmazó, néhány lövéses (few-shot) felszólító technikává. Mindemellett azonban, a "Gondolkozzunk lépésről lépésre" szavak egyszerű hozzáfűzése is hatékonynak bizonyult^[31], ami a CoT-ot nulla lövésű (zero-shot) promptolási technikává teszi. Mivel a felhasználónak többé nem kell sok konkrét CoT kérdés-válasz példát megfogalmaznia, ez a modszer lehetővé teszi a jobb méretezést.^[32]

Mikor a PaLM-re, egy 540B paraméteres nyelvi modellre alkalmazták, a CoT promptolás jelentős mértékben segítette a modellt, lehetővé téve, hogy az számos feladatnál a feladatspecifikus finomhangolt modellekkel összehasonlíthatóan teljesítsen, így a legkorszerűbb eredményeket (state of the art) érje el a GSM8K matematikai érvelési benchmarkon.^[16] Ennek a képességnek a további erősítése és a jobb értelmezhetőségre stimulálása érdekében lehetséges a modelleknek a CoT érvelési adatkészleteken való finomhangolása.^[33]^[34]

Példa:^[31]

K: {kérdés}
V: Gondolkozzunk lépésről lépésre.

Egyéb technikák

A gondolatlánc utasítás csak egy a sok prompt mérnöki technika közül. Különféle egyéb technikákat is javasoltak. Legalább 29 különböző technikát publikáltak.^[35]

Szimbólumlánc (CoS) promptolás

A Szimbólumlánc-promptolás, a CoT felszólítással együtt, segíti az LLM-eket a szövegben megjelenő térbeli érvelés nehézségeinek leküzdésében. Más szavakkal, tetszőleges szimbólumok, például a ' / ' használata segíti az LLM-et a szöveg részei közötti szünetek értelmezésében. Ez segíti az érvelést és növeli az LLM teljesítményét.^[36]

Példa:^[36]

Bemenet:

Van egy sor tégla. A sárga C tégla az E tégla tetején van. A sárga D tégla az A tégla tetején van. A sárga E tégla a D tégla tetején található. A fehér A tégla a B tégla tetején található. A B tégla fehér színű. Most egy konkrét téglát kell szereznünk. A téglákat most fentről lefelé kell megérinteni, így ha az alsó téglát kell megfogni, akkor először a felső téglát kell eltávolítani. Hogyan lehet D téglához hozzáférni?

B/A/D/E/C
C/E
E/D
D

Kimenet:

Így az eredményt C, E, D formában kapjuk.

Generált tudás promptolás

A generált tudás felszólítás^[37] először arra kéri a modellt, hogy generáljon releváns tényeket a prompt kitöltéséhez, majd folytassa a prompt befejezésével. A megoldás minősége általában magasabb, mivel a modell releváns tényekre kondicionálható.

Példa:^[37]

Generálj ismereteket a bemenetben szereplő fogalmakról.
Bemenet: {kérdés}
Tudás:

„A legkevesebbtől a legtöbbig" promptolás

„A legkevesebbtől a legtöbbig" promptolás^[38] arra utasítja a modellt, hogy először sorolja fel egy probléma alproblémáit, majd sorban oldja meg azokat úgy, hogy a későbbi alproblémák az előző alfeladatokra adott válaszok segítségével megoldhatók legyenek.

Példa:^[38]

Bemenet:
K: {kérdés}
V: Bontsuk le ezt a problémát:
1.

Önkonzisztencia dekódolás

Az önkonzisztencia dekódolás^[39] több gondolati láncon halad végig, majd kiválasztja ezek közül a leggyakrabban elért következtetést. Ha a gondolatmenetek nagymértékben eltérnek egymástól, egy embertől lehet érdeklődni a helyes gondolati láncról.^[40]

Komplexitás alapú felszólítás

A komplexitás alapú felszólítás^[41] több CoT-kiterjesztést hajt végre, majd kiválasztja ezek közül a leghosszabb gondolati lánccal rendelkező kiterjesztéseket, végül pedig ezek közül választja ki a leggyakrabban elért konklúziót.

Önfinomítás (Self-refine)

Az önfinomítás^[42] először felszólítja az LLM-et a probléma megoldására, majd arra, hogy az LLM bírálja el a saját megoldását. Végül felszólítja az LLM-et, hogy a probléma, a megoldás és a kritika figyelembe vételével, oldja meg újra a problémát. Ezt a folyamatot addig ismétli, amíg el nem fogynak a tokenek, vagy az idő, vagy amíg az LLM nem hoz létre egy „stop” tokent.

Példa a kritikára:^[42]

Van egy kódom. Adjon egy javaslatot az olvashatóság javítására. Ne javítsd ki a kódot, csak adj javaslatot.
Kód: {code}
Javaslat:

Példa a finomításra:

Kód: {code}
Használjuk ezt a javaslatot a kód fejlesztésére.
Javaslat: {suggestion}
Új kód:

A gondolatfa

A gondolatfa prompt^[43] általánosítja a gondolatláncot azáltal, hogy felszólítja a modellt, hogy generáljon egy vagy több "lehetséges következő lépést", majd breadth-first, beam, vagy más fakeresési módszerrel, minden lehetséges következő lépésben lefuttatja a modellt.^[44]

Maieutikus felszólítás

A maieutikus felszólítás hasonló a gondolatfához. A modellt arra kérik, hogy magyarázattal válaszoljon egy kérdésre. Ezután arra utasítják a modellt, hogy magyarázza el a magyarázat egyes részeit, és így tovább. Az inkonzisztens magyarázó fákat lemetszik vagy kidobják. Ez javítja a teljesítményt az összetett józan ész típusú érvelés során.^[45]

Példa:^[45]

K: {kérdés}
V: Igaz, mert

K: {kérdés}
V: Hamis, mert

Irányító-inger promptolás

Az irányított inger felszólítás^[46] olyan tippet vagy jelzést tartalmaz, például a kívánt kulcsszavakat, amelyek a kívánt kimenet felé irányítják a nyelvi modellt.

Példa:^[46]

Cikk: {cikk}
Kulcsszavak:

Cikk: {cikk}
K: Írjon egy rövid összefoglalót a cikkről 2-4 mondatban, amely pontosan tartalmazza a megadott kulcsszavakat.
Kulcsszavak: {keywords}
V:

A bizonytalanságot felfedő utasítás

Alapértelmezés szerint a nyelvi modellek kimenete nem tartalmazhat bizonytalansági becsléseket. A modell olyan szöveget jeleníthet meg, amely magabiztosnak tűnik, bár a mögöttes token előrejelzések alacsony valószínűségi pontszámokkal rendelkeznek. Az olyan nagy nyelvi modellek, mint a GPT-4, pontosan kalibrált valószínűségi pontszámokkal rendelkezhetnek token előrejelzéseikben,^[47] és így a modell kimeneti bizonytalansága közvetlenül megbecsülhető a token előrejelzés valószínűségi pontszámainak kiolvasásával.

Attól még, hogy valaki nem fér hozzá az ilyen pontszámokhoz (például, amikor valaki egy korlátozó API-n keresztül éri el a modellt), a bizonytalanság továbbra is megbecsülhető és beépíthető a modell kimenetébe. Az egyik egyszerű módszer az, hogy arra utasítjuk a modellt, hogy a bizonytalanság becslésére szavakat használjon.^[48] A másik pedig az, hogy felszólítjuk a modellt, hogy ha a bemenet nem felel meg a feltételeknek, akkor utasítsa el a szabványos válaszadást.

Automatikus promptgenerálás

Visszakereséssel bővített generálás

A visszakereséssel bővített generálás (Retrieval-augmented Generation - RAG) egy kétfázisú folyamat, amely magában foglalja, hogy egy Nagy Nyelvi Modell (LLM) visszakeresi a dokumentumokat és megfogalmazza a válaszokat. A kezdeti fázis sűrű beágyazást használ a dokumentumok visszakereséséhez. Ez a visszakeresés, a használati esettől függően, számos adatbázis-formátumon alapulhat, például vektoros adatbázison, összefoglaló indexen, faindexen vagy kulcsszótábla-indexen.^[49]

Egy lekérdezésre adott válaszban a dokumentum-visszakereső kiválasztja a legrelevánsabb dokumentumokat. Ez a relevancia általában először a lekérdezés és a dokumentumok vektorizálása során határozódik meg, majd ezt követi azoknak a dokumentumoknak az azonosítása, amelyek vektorai euklideszi távolságban a legközelebb vannak a lekérdezési vektorhoz. A dokumentum visszakeresést követően, az LLM létrehoz egy kimenetet, amely mind a lekérdezésből, mind a lekért dokumentumokból származó információkat tartalmazza.^[50] Ez a módszer különösen előnyös olyan védett vagy dinamikus információk kezelésére, amelyek nem szerepeltek a modell kezdeti betanítási vagy finomhangolási fázisában. A RAG figyelemre méltóan használja a "kevés lövésű" tanulást is, amelynek során a modell kis számú, gyakran adatbázisból automatikusan visszakeresett példát használ az outputjaiban használt infromációk létrehozásra.

Grafikonok visszakeresésével kiegészített generálás

GraphRAG tudásgrafikonnal, amely egyesíti a strukturálatlan, strukturált és kevert adatok hozzáférési mintáit.

A Microsoft Research által fémjelzett GraphRAG^[51] úgy terjeszti ki a RAG-ot, hogy ahelyett, hogy pusztán a vektoros hasonlóságra hagyatkozna (mint a legtöbb RAG megközelítésben), a GraphRAG az LLM által generált tudásgráfot használja. Ez a grafikon lehetővé teszi a modell számára, hogy összekapcsolja a különböző információ darabkákat, szintetizálja a különböző felismeréseit, és holisztikusan ragadja meg a nagy adatgyűjteményekben összefoglalt szemantikai fogalmakat.

A kutatók olyan adatkészletek használatával demonstrálták a GraphRAG hatékonyságát, mint a „Hírcikkekből származó erőszakos eseményekre vonatkozó információk” adatkészlet (Violent Incident Information from News Articles - VIINA).^[52] A GraphRAG, az LLM által generált tudásgráfoknak a gépi gráftanulással való kombinálásával, a globális értelmezési kérdésekre generált válaszok átfogóságát és sokszínűségét egyaránt jelentősen javítja.

Egy korábbi munka már bemutatta a tudásgráf alkalmazásának hatékonyságát a szövegből-lekérdezést generáló válaszok esetében.^[53] Ezek a technikák kombinálhatók a strukturálatlan és strukturált adatok közötti kereséshez, kibővített kontextust és jobb rangsorolást biztosítva.

Nyelvi modellek használata promptok generálásához

A nagy nyelvi modellek (LLM) maguk is használhatók arra, hogy promptokat fogalmazzanak meg nagy nyelvi modellekhez.^[54]^[55]^[56]^[57]

Az automatikus prompt mérnök algoritmus (automatic prompt engineer algorithm) egy LLM-et használ annak érdekében, hogy egy másik LLM-re vonatkozó promptokat sugározzon:^[58]

Tegyük fel, hogy van két Nagy Nyelvi Modellünk (LLMs). Az egyik a cél LLM, a másik pedig az utasító LLM.
Az utasító LLM-nek példa bemenet-kimenet párokat mutatunk be, és megkérjük, hogy generáljon olyan utasításokat, amelyek egy, az instrukciókat követő modellt, az adott bemenetek ismeretében a kimenetek generálására késztethetnének.
Az egyes bemeneteket követően generált instrukciók mindegyike a cél LLM utasítására szolgál. A kimenetek log-valószínűségeit kiszámítódnak és összeadódnak. Ez az utasítás pontszáma.
A promptoló LLM a legmagasabb pontszámot elért instrukciókat adja hozzá a további utasítás variációkhoz.
Mindezt addig ismétli, amíg el nem ér néhány leállítási feltételt, majd kiadja a legmagasabb pontszámot elért utasításokat.

CoT példákat az LLM maga is generálhat. Az "auto-CoT"-ban^[59] egy olyan modell, mint például a BERT, vektorokká konvertálja át a kérdéskönyvtárat. Csoportokba rendeződnek a kérdésvektorok (klaszterizálódnak). Minden egyes klaszter esetében a súlypontjához (centroid) legközelebb eső kérdések kerülnek kiválasztásra. Egy LLM minden kérdésnél nulla-shot CoT-ot választ. Az eredményül kapott CoT-példák hozzáadódnak az adatkészlethez. Amikor új kérdéssel promptolnak, a legközelebbi kérdésekre vonatkozó CoT-példák visszakereshetők és hozzáadhatók a prompthoz.

Szövegből képet

2022-ben a nagyközönség számára is megjelentek olyan, szövegből képet generáló modellek, mint a DALL-E, a Stable Diffusion és a Midjourney.^[60] Ezek a modellek szöveges felszólításokat fogadnak bemenetként, és művészi AI képek generálására használják őket. A szövegből képet generáló modellek tipikusan nem értik ugyanúgy a nyelvtant és a mondatszerkezetet, mint a nagy nyelvi modellek^[61], és eltérő felszólítási technikákat igényelnek.

Promptformátumok

A szövegről képre generálást célzó prompt általában tartalmazza a művészet tárgyának leírását (például „élénk, narancssárga pipacsok”), a kívánt médiumot (például „digitális festmény” vagy „fénykép”), a stílust (például „hiperrealista” vagy „'pop-art”), a világítást (például „peremvilágítás” vagy „krepuszkuláris sugarak”), valamint a színt és a textúrát.^[62]

A Midjourney dokumentációja a rövid, leíró jellegű felszólításokra buzdít: a „Mutasson egy képet sok virágzó kaliforniai pipacsról, tegye világos, élénk narancssárgává őket, és rajzolja meg őket színes ceruzákkal illusztrált stílusban” helyett a „Színes ceruzával rajzolt, élénk narancssárga, kaliforniai pipacsok” lenne a hatékony felszólítás.^[61]

A szavak sorrendje befolyásolja a szövegről képre generálást célzó prompt kimenetét. A felszólítás elejéhez közelebbi szavak hangsúlyosabbak lehetnek.^[1]

Művészi stílusok

Egyes szövegről képre generáló modellek képesek név szerint utánozni bizonyos művészek stílusát. Például a Stable Diffusion és a Midjourney promptokban használták a „Greg Rutkowski stílusában" kifejezést, hogy Greg Rutkowski, lengyel digitális művész jellegzetes stílusában hozzanak létre képeket.^[63]

Negatív promptok

A szöveg-kép modellek alapvetően nem értik a tagadást. Egy tagadó prompt, például a "buli torta nélkül" felszólítás, valószínűleg olyan képet eredményez, amely tortát is tartalmaz.^[61] Alternatív megoldásként ugyanakkor a felhasználó a negatív prompt esetében jelezheti, hogy mely kifejezések ne jelenjenek meg a kapott képen.^[64] Gyakori eljárás, hogy az általánosan nem kívánatos kifejezéseket - például csúnya, unalmas, rossz anatómiájú -, beilleszti a kép generálására vonatkozó negatív utasításba.

Szövegből videót

A szövegből videó (text-to-video - TTV) generálás egy feltörekvő technológia, amely lehetővé teszi videók készítését közvetlenül a szöveges leírásokból. Ez a terület nagy potenciált rejt magában a videógyártás, az animáció és a történetmesélés átalakítására. A mesterséges intelligencia erejét kihasználva, a TTV lehetővé teszi a felhasználók számára, hogy a hagyományos videószerkesztő eszközök megkerülésével alakíthassák ötleteiket mozgóképekké.

E modellek közé a következők tartoznak:

Runway Gen-2 – Felhasználóbarát felületet kínál, és különféle videóstílusokat támogat.
Lumiere – Nagy felbontású videó generálására tervezték.^[65]
Make-a-Video – A részletes és változatos videokimenetek létrehozására összpontosít.^[66]
Az OpenAI Sora – A még kiadatlan Sora állítólag nagy felbontású videókat tud készíteni.^[67]^[68]

Nem szöveges felszólítások

Egyes megközelítések a természetes nyelvű szöveges felszólításokat nem szöveges bevitellel egészítik ki, vagy helyettesítik.

Szöveges inverzió és beágyazások

Szövegből képet generáló modellek esetén a "szöveges inverzió"^[69] egy optimalizálási folyamatot hajt végre egy új szóbeágyazás létrehozására, példaképek halmaza alapján. Ez a beágyazási vektor egyfajta „pszeudoszóként” működik, amely a példák tartalmának, vagy stílusának kifejezése érdekében belefoglalható a promptba.

Képi utasítás

2023-ban a Meta mesterséges intelligencia-kutatása kiadta a Segment Anything nevű számítógépes látásmodellt, amely promptból is képes képet szegmentálni. A szöveges utasítások alternatívájaként, a Segment Anything fogadhat határolókereteket, szegmentációs maszkokat és előtér-/háttérpontokat is.^[70]

A gradiens süllyedés használata a promptok kereséséhez

Az "előtag-hangolás",^[71] "prompt tuning" vagy "soft prompting"^[72] során a lebegőpontos értékű vektorok, a log-valószínűségeknek a kimenetben való maximalizálása érdekében, közvetlenül a gradiens süllyedése alapján kerülnek megkeresésre.

Formálisan, legyen

$𝐄 = {𝐞_{𝟏}, \dots, 𝐞_{𝐤}}$ lágy prompt tokenek (hangolható beágyazások) halmaza, míg

$𝐗 = {𝐱_{𝟏}, \dots, 𝐱_{𝐦}}$ és $𝐘 = {𝐲_{𝟏}, \dots, 𝐲_{𝐧}}$ legyenek a bemeneti és a kimeneti token beágyazásai. A képzés során a hangolható beágyazások, bemeneti és kimeneti tokenek egyetlen sorozatba vannak összefűzve: $concat (𝐄; 𝐗; 𝐘)$ ,

és betáplálva a nagy nyelvi modellekbe (LLM).

A veszteségeket az $𝐘$ tokenekkel számítjuk; a színátmenetek pedig prompt-specifikus paraméterekként vannak visszapropagálva: az előtag-hangolás során ezek az egyes rétegekben lévő prompt tokenekhez társított paraméterek. A prompthangolásnál viszont ezek csupán a szójegyzékhez hozzáadott soft tokenek.^[73]

Formálisabban ez a prompthangolás. Legyen egy LLM felírva a következő módon:

$L L M (X) = F (E (X))$ , ahol $X$ a nyelvi tokenek sorozata, $E$ a „tokenből-vektort" függvény, és $F$ a modell többi része. Az előtag-hangolás során valaki bemenet-kimenet párokat biztosít ${(X^{i}, Y^{i})}_{i}$ , majd a gradiens süllyedést használja a következő kereséséhez $\arg \max_{\tilde{Z}} \sum_{i} \log P r [Y^{i} | \tilde{Z} * E (X^{i})]$ . Szavakkal: $\log P r [Y^{i} | \tilde{Z} * E (X^{i})]$ a kimenet log-valószínűsége $Y^{i}$ , ha a modell először a bemenetet $X^{i}$ a vektorba $E (X^{i})$ kódolja, majd a vektor elé teszi az "előtag vektort" $\tilde{Z}$ , majd alkalmazza az $F$ -et.

Az előtag hangolásához hasonló, de az "előtag vektor" $\tilde{Z}$ előre hozzá van fűzve a rejtett állapotokhoz a modell minden rétegében.

Egy korábbi eredmény^[74] a gradiens süllyedés keresésének ugyanezt az elképzelését használja, de olyan maszkolt nyelvi modellekhez készült, mint a BERT, és numerikus vektorok helyett csak token-szekvenciákon keres.

Formálisan, $\arg \max_{\tilde{X}} \sum_{i} \log P r [Y^{i} | \tilde{X} * X^{i}]$ -ra keres, ahol $\tilde{X}$ egy meghatározott hosszúságú token sorozatok tartománya.

Promptinjekció

A promptinjekció a számítógépes biztonsági rések kihasználásnak családjába tartozik, amelyet egy olyan, az ember által adott instrukciók követésére kiképzett gépi tanulási modellnek (például LLM-nek) a felhasználásával hajtanak végre, amely képes követni a rosszindulatú felhasználó utasításait. Ez ellentétben áll az utasításkövető rendszerek tervezett működésével, ahol az ML modell csak az ML modell kezelője által biztosított megbízható utasítások (prompt) követésére szolgál.^[75]^[76]^[77]

Hivatkozások

Sablon:Jegyzetek

Fordítás

Sablon:Fordítás

Kapcsolódó szócikk

Pszichológiai manipuláció (informatika)

Sablon:Generatív MI

↑ ^1,0 ^1,1 ^1,2 Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ ^5,0 ^5,1 Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite journal
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite arXiv
↑ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
↑ Sablon:Cite arXiv
↑ ^16,0 ^16,1 ^16,2 ^16,3 ^16,4 Sablon:Cite conference
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite news
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ ^31,0 ^31,1 Sablon:Cite arXiv
↑ Sablon:Cite web
↑ Sablon:Cite arXiv
↑ Sablon:Cite web
↑ Sablon:Citation
↑ ^36,0 ^36,1 Sablon:Citation
↑ ^37,0 ^37,1 Sablon:Cite journal
↑ ^38,0 ^38,1 Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ ^42,0 ^42,1 Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ ^45,0 ^45,1 Sablon:Cite arXiv
↑ ^46,0 ^46,1 Sablon:Cite arXiv
↑ Sablon:Cite arXiv [See Figure 8.]
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite journal
↑ Sablon:Citation
↑ Sablon:Citation
↑ Sablon:Citation
↑ Sablon:Cite journal
↑ Sablon:Cite journal
↑ Sablon:Cite journal
↑ Sablon:Cite journal
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Cite web
↑ ^61,0 ^61,1 ^61,2 Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite arXiv
↑ Sablon:Cite arXiv
↑ Sablon:Hivatkozás/Könyv
↑ Sablon:Hivatkozás/Könyv
↑ Sablon:Cite arXiv
↑ Sablon:Hivatkozás/Könyv
↑ Sablon:Cite web
↑ Sablon:Cite web
↑ Sablon:Cite web

[diab-1] 1,0 ^1,1 ^1,2 Sablon:Cite web

[2] Sablon:Cite web

[language-models-are-multitask-3] Sablon:Cite web

[4] Sablon:Cite web

[zapier20230803-5] 5,0 ^5,1 Sablon:Cite web

[6] Sablon:Cite web

[7] Sablon:Cite web

[8] Sablon:Cite web

[9] Sablon:Cite journal

[10] Sablon:Cite web

[11] Sablon:Cite web

[12] Sablon:Cite web

[2022_EmergentAbilities-13] Sablon:Cite arXiv

[14] Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.

[15] Sablon:Cite arXiv

[weipaper-16] 16,0 ^16,1 ^16,2 ^16,3 ^16,4 Sablon:Cite conference

[17] Sablon:Cite web

[18] Sablon:Cite web

[19] Sablon:Cite arXiv

[20] Sablon:Cite arXiv

[21] Sablon:Cite arXiv

[22] Sablon:Cite web

[23] Sablon:Cite web

[24] Sablon:Cite news

[25] Sablon:Cite web

[26] Sablon:Cite web

[27] Sablon:Cite web

[28] Sablon:Cite web

[29] Sablon:Cite web

[30] Sablon:Cite web

[KojimaStepByStep-31] 31,0 ^31,1 Sablon:Cite arXiv

[venture1-32] Sablon:Cite web

[33] Sablon:Cite arXiv

[34] Sablon:Cite web

[35] Sablon:Citation

[:0-36] 36,0 ^36,1 Sablon:Citation

[LiuGeneratedKnowledge-37] 37,0 ^37,1 Sablon:Cite journal

[ZhouLeastMost-38] 38,0 ^38,1 Sablon:Cite arXiv

[39] Sablon:Cite arXiv

[40] Sablon:Cite arXiv

[41] Sablon:Cite arXiv

[MadaanSelfRefine-42] 42,0 ^42,1 Sablon:Cite arXiv

[LongTreeofThought-43] Sablon:Cite arXiv

[44] Sablon:Cite arXiv

[JungMaieutic-45] 45,0 ^45,1 Sablon:Cite arXiv

[LiPengHe-46] 46,0 ^46,1 Sablon:Cite arXiv

[47] Sablon:Cite arXiv [See Figure 8.]

[48] Sablon:Cite web

[49] Sablon:Cite web

[50] Sablon:Cite journal

[51] Sablon:Citation

[52] Sablon:Citation

[53] Sablon:Citation

[54] Sablon:Cite journal

[55] Sablon:Cite journal

[56] Sablon:Cite journal

[57] Sablon:Cite journal

[58] Sablon:Cite arXiv

[59] Sablon:Cite arXiv

[60] Sablon:Cite web

[Prompts-61] 61,0 ^61,1 ^61,2 Sablon:Cite web

[62] Sablon:Cite web

[63] Sablon:Cite web

[64] Sablon:Cite web

[65] Sablon:Cite web

[66] Sablon:Cite web

[67] Sablon:Cite web

[68] Sablon:Cite web

[69] Sablon:Cite arXiv

[Kirillov-70] Sablon:Cite arXiv

[71] Sablon:Hivatkozás/Könyv

[72] Sablon:Hivatkozás/Könyv

[73] Sablon:Cite arXiv

[74] Sablon:Hivatkozás/Könyv

[75] Sablon:Cite web

[76] Sablon:Cite web

[77] Sablon:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

Prompttervezés

Tartalomjegyzék

A kontextuson belüli tanulás

Történelem

Szövegről szövegre

Gondolatlánc

Egyéb technikák

Generált tudás promptolás

„A legkevesebbtől a legtöbbig" promptolás

Önkonzisztencia dekódolás

Komplexitás alapú felszólítás

Önfinomítás (Self-refine)

A gondolatfa

Maieutikus felszólítás

Irányító-inger promptolás

A bizonytalanságot felfedő utasítás

Automatikus promptgenerálás

Visszakereséssel bővített generálás

Grafikonok visszakeresésével kiegészített generálás

Nyelvi modellek használata promptok generálásához

Szövegből képet

Promptformátumok

Művészi stílusok

Negatív promptok

Szövegből videót

Nem szöveges felszólítások

Szöveges inverzió és beágyazások

Képi utasítás

A gradiens süllyedés használata a promptok kereséséhez

Promptinjekció

Hivatkozások

Fordítás

Kapcsolódó szócikk

Navigációs menü

Prompttervezés

A kontextuson belüli tanulás

Történelem

Szövegről szövegre

Gondolatlánc

Egyéb technikák

Generált tudás promptolás

„A legkevesebbtől a legtöbbig" promptolás

Önkonzisztencia dekódolás

Komplexitás alapú felszólítás

Önfinomítás (Self-refine)

A gondolatfa

Maieutikus felszólítás

Irányító-inger promptolás

A bizonytalanságot felfedő utasítás

Automatikus promptgenerálás

Visszakereséssel bővített generálás

Grafikonok visszakeresésével kiegészített generálás

Nyelvi modellek használata promptok generálásához

Szövegből képet

Promptformátumok

Művészi stílusok

Negatív promptok

Szövegből videót

Nem szöveges felszólítások

Szöveges inverzió és beágyazások

Képi utasítás

A gradiens süllyedés használata a promptok kereséséhez

Promptinjekció

Hivatkozások

Fordítás

Kapcsolódó szócikk

Navigációs menü

Keresés