RESEARCH

Beyond Trajectory Imitation: Strategy-Guided Policy Optimization for LLM Reasoning

ArXiv cs.AI · Wed, 24 Jun 2026 04:00:00 GMT

arXiv:2606.24064v1 Announce Type: new Abstract: Distilling reasoning capabilities from strong to weak language models typically involves imitating specific solution trajectories, effectively transferring what to answer rather than how to reason. This trajectory-level imitation en

Read original source Discuss with SiMON