Pregunta de entrevista de TikTok

Describe GRPO loss and other RL algorithm