OpenAI bemutatta az IH-Challenge adathalmazt a hierarchikus utasítások erősítésére

Az OpenAI a 2026. március 10-i bejelentésében bemutatta az IH-Challenge-t, egy olyan tréningadatot, amely a modellek számára a hierarchikus utasítások – a System > developer > user > tool – betartását erősíti.

A cél, hogy a modellek megbízhatóan priorizálják a legmagasabb rangú utasításokat, így elkerülve a prompt-injection támadásokat és a nem engedélyezett tartalom kérését.

A tréning során egyszerű, objektíven értékelhető feladatokat használnak, melyeken programozottan ellenőrizhető, hogy a válasz megfelel-e a magasabb szintű előírásnak.

A tesztek eredményei szerint az új GPT‑5 Mini‑R modell javult az instruction‑hierarchy benchmarkokon, miközben megőrizte a hasznosságot és nem hajtott ki túlzott visszautasítást.

Az OpenAI szerint az IH-Challenge segít a biztonságos és megbízható AI rendszerek telepítésében, erősítve a safety steerability-t és a prompt injection robustness-t.