A operação de atenção é um dos aspectos mais inovadores dos transformadores. Essa operação permite que o modelo considere o contexto de todas as palavras simultaneamente. Qual é o impacto dessa operação na capacidade do modelo de entender nuances de significado em diferentes contextos?