Pregunta de entrevista de Binance

How vision language model works?