Разбираем статью “Attention is all you need” и рассматриваем важные части кода механизма внимания, который является основной составляющей таких моделей как BERT, RoBERTa и RuBERT. Механизм внимания с некоторыми модификациями можно применять в регрессии для установления сложных взаимосвязей между чертами(features) датасета. Можно применять этот механизм для изображений.