Model rozumujący
Model rozumujący[1] (ang. reasoning language model, RLM large reasoning model, LRM) – duży model językowy (LLM), który został dodatkowo wytrenowany w celu rozwiązywania wieloetapowych zadań wymagających rozumowania[2]. Modele te sprawdzają się lepiej w zadaniach logicznych, matematycznych i programistycznych niż tradycyjne modele LLM, mają zdolność do nawracania. Modele RLM do tradycyjnych „osi skalowania” (wielkość zbioru treningowego, liczba hiperparametrów modelu, moc obliczeniowa w trakcie uczenia) dodają nową oś: moc obliczeniową podczas testowania[3].
Modele rozumujące powstały jako odpowiedź na ograniczoną ilość dostępnych danych treningowych wysokiej jakości[4].
Historia
[edytuj | edytuj kod]2024
[edytuj | edytuj kod]We wrześniu 2024 OpenAI wydała o1-preview, program LLM z ulepszonym rozumowaniem[5]. Pełna wersja o1 ukazała się w grudniu 2024, wraz z opublikowaniem wyników następnego modelu o3[6].
W listopadzie 2024 Alibaba opublikowała wersje rozumujące swoich modeli LLM Qwen[7].
W grudniu 2024 Google wprowadził w Gemini funkcję Deep Research, która umożliwia wykonywania zadań wieloetapowych[8].
16 grudnia 2024 przeprowadzono eksperyment z wykorzystaniem modelu Llama 3B, który wykazał, że dzięki skalowaniu obliczeń w czasie testu stosunkowo mały model może uzyskać lepsze wyniki niż znacznie większy model Llama 70B w przypadku trudnych zadań wymagających rozumowania. Wynik ten podkreślił, że ulepszone strategie wnioskowania mogą odblokować ukryte możliwości rozumowania nawet w kompaktowych modelach[9].
2025
[edytuj | edytuj kod]W styczniu 2025 firma DeepSeek wydała model R1, który jest konkurencyjny w stosunku do o1 przy niższych kosztach[10]. 25 stycznia 2025 DeepSeek opublikowała model DeepSeek R1 z funkcją umożliwiającą jednoczesne korzystanie z możliwości wyszukiwania i wnioskowania, co pozwala na efektywniejszą integrację pobierania danych z procesami wnioskowania.
2 lutego 2025 OpenAI wydała Deep Research[11] integrujące wnioskowanie i wyszukiwanie w sieci, dzięki czemu użytkownicy mogą wysyłać złożone zadania wymagające wieloetapowego wnioskowania i syntezy danych z wielu źródeł. Bazuje na modelu o3, a generowanie raportów wnioskowania mogło zająć od 5 do 30 minut[12].
Uczenie przez wzmacnianie
[edytuj | edytuj kod]Trening RLMów za pomocą uczenia przez wzmacnianie (RL) polega na skonstruowaniu modelu nagrody aby kierować procesem RL. Intuicyjnie model nagrody opisuje, jak pożądana/właściwa/dobra jest reakcja na dane polecenie. W przypadku RLMa polecenie opisuje zadanie wymagające rozumowania, a nagroda będzie wysoka, jeśli odpowiedź rozwiąże zadanie, lub niska, jeśli odpowiedź nie rozwiąże zadania.
W przypadku RLMów odpowiedź modelu można podzielić na wiele kroków, w takim przypadku zapisuje się je jako .
Model nagradzania wyniku
[edytuj | edytuj kod]Model nagradzania wyniku (ang. outcome reward model, ORM)[13], to technika obliczająca nagrodę za krok określone na podstawie ostatecznej odpowiedzi: .
ORM jest zwykle trenowany poprzez regresję logistyczną, która minimalizuje stratę entropii krzyżowej[14].
DeepSeek skorzystał z techniki ORM do trenowania modelu R1[15].
Model nagradzania procesu
[edytuj | edytuj kod]Model nagradzania procesu (ang. process reward model, PRM)[13], to technika nagradzania obliczająca nagrodę za krok określony na podstawie dotychczasowych kroków: .
Biorąc pod uwagę częściową ścieżkę kroków można zapytać człowieka, czy dotychczasowe kroki były poprawne, niezależnie od tego, czy ostateczna odpowiedź będzie poprawna. Można to następnie wykorzystać jako binarny sygnał nagrody. Ponieważ etykiety ludzkie są kosztowne, można udoskonalić model bazowy, aby przewidywał etykiety ludzkie[13]. PRM jest zwykle trenowany metodą regresji logistycznej na etykietach ludzkich, tj. poprzez minimalizację straty entropii krzyżowej pomiędzy prawdziwymi etykietami a etykietami przewidywanymi[13].
OpenAI w 2023 opublikowała 800 tys. etykiet kroków dla 75 tys. procesów, zebranych w sposób manualny. Osoba etykietująca miała do dyspozycji kroki rozwiązania i oznaczana ścieżkę jako „pozytywną”, jeśli krok postępuje w kierunku rozwiązania, „neutralną”, jeśli nie jest błędna, ale nie postępuje w kierunku rozwiązania, i „negatywną”, jeśli jest błędna. W momencie wprowadzenia etykiety „negatywnej” osoba etykietująca przestaje etykietować dane kroki myślenia[3][16].
Przykładowe modele
[edytuj | edytuj kod]- Claude Sonnet 3.7 od Anthropic
- Gemini 2.5 Pro i 2.0 Flash Thinking od Google
- Grok 3 i 4 od xAI
- Magistral od Mistral AI
- o1, o3 od OpenAI
- R1 od DeepSeek
Zobacz też
[edytuj | edytuj kod]Przypisy
[edytuj | edytuj kod]- ↑ Ekspert: Chińczycy są w stanie za mniejsze pieniądze tworzyć modele AI porównywalne z zachodnimi [online], Nauka w Polsce [dostęp 2025-07-16] .
- ↑ Maciej Besta i inni, Reasoning Language Models: A Blueprint, „arXiv”, 2025, DOI: 10.48550/arXiv.2501.11223, arXiv:2501.11223 [dostęp 2025-07-15] .
- ↑ a b Hunter Lightman i inni, Let's Verify Step by Step, „arXiv”, 2023, DOI: 10.48550/arXiv.2305.20050, arXiv:2305.20050 [dostęp 2025-07-16] .
- ↑ Kimi Team i inni, Kimi k1.5: Scaling Reinforcement Learning with LLMs, „arXiv”, 2025, DOI: 10.48550/arXiv.2501.12599, arXiv:2501.12599 [dostęp 2025-07-17] .
- ↑ Benj Edwards , OpenAI’s new “reasoning” AI models are here: o1-preview and o1-mini [online], Ars Technica, 12 września 2024 [dostęp 2025-07-15] (ang.).
- ↑ Carl Franzen , Emilia David , OpenAI confirms new frontier models o3 and o3-mini [online], VentureBeat, 20 grudnia 2024 [dostęp 2025-07-15] (ang.).
- ↑ Qwen Team , QwQ: Reflect Deeply on the Boundaries of the Unknown [online], Qwen, 28 listopada 2024 [dostęp 2025-07-15] (ang.).
- ↑ Try Deep Research and our new experimental model in Gemini, your AI assistant [online], Google, 11 grudnia 2024 [dostęp 2025-07-15] (ang.).
- ↑ Scaling test-time compute - a Hugging Face Space by HuggingFaceH4 [online], huggingface.co [dostęp 2025-07-15] .
- ↑ Kyle Orland , How does DeepSeek R1 really fare against OpenAI’s best reasoning models? [online], Ars Technica, 28 stycznia 2025 [dostęp 2025-07-15] (ang.).
- ↑ Introducing deep research. OpenAI, 2025-02-02. [dostęp 2025-02-05]. (ang.).
- ↑ Anthony Ha , OpenAI unveils a new ChatGPT agent for ‘deep research’ [online], TechCrunch, 3 lutego 2025 [dostęp 2025-07-15] (ang.).
- ↑ a b c d Jonathan Uesato i inni, Solving math word problems with process- and outcome-based feedback, „arXiv”, 2022, DOI: 10.48550/arXiv.2211.14275, arXiv:2211.14275 [dostęp 2025-07-15] .
- ↑ Peiyi Wang i inni, Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations, „arXiv”, 2024, DOI: 10.48550/arXiv.2312.08935, arXiv:2312.08935 [dostęp 2025-07-15] .
- ↑ DeepSeek-AI i inni, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, „arXiv”, 2025, DOI: 10.48550/arXiv.2501.12948, arXiv:2501.12948 [dostęp 2025-07-15] .
- ↑ openai/prm800k, OpenAI, 16 lipca 2025 [dostęp 2025-07-16] .