OpenAI bemutatta az IH-Challenge adathalmazt a hierarchikus utasítások erősítésére
Az OpenAI új IH-Challenge adathalmazzal erősíti a modellek prioritási hierarchiáját, hogy biztonságosabban és megbízhatóbban reagáljanak különböző források utasításaira.
Az OpenAI a 2026. március 10-i bejelentésében bemutatta az IH-Challenge-t, egy olyan tréningadatot, amely a modellek számára a hierarchikus utasítások – a System > developer > user > tool – betartását erősíti.
A cél, hogy a modellek megbízhatóan priorizálják a legmagasabb rangú utasításokat, így elkerülve a prompt-injection támadásokat és a nem engedélyezett tartalom kérését.
A tréning során egyszerű, objektíven értékelhető feladatokat használnak, melyeken programozottan ellenőrizhető, hogy a válasz megfelel-e a magasabb szintű előírásnak.
A tesztek eredményei szerint az új GPT‑5 Mini‑R modell javult az instruction‑hierarchy benchmarkokon, miközben megőrizte a hasznosságot és nem hajtott ki túlzott visszautasítást.
Az OpenAI szerint az IH-Challenge segít a biztonságos és megbízható AI rendszerek telepítésében, erősítve a safety steerability-t és a prompt injection robustness-t.