Pregunta de entrevista de Huawei Technologies

How do you use RL to optimize LLM?