This is the third video about the transformer decoder and the final video introducing the transformer architecture. Here we mainly learn about the encoder-decoder multi-head self-attention layer, used to incorporate information from the encoder into the decoder. It should be noted that this layer is also commonly known as the cross-attention layer.
The video is part of a series of videos on the transformer architecture, https://arxiv.org/abs/1706.03762. You can find the complete series and a longer motivation here:
• A series of videos on the transformer
Slides are available here:
https://chalmersuniversity.box.com/s/...
Смотрите видео Transformer - Part 8 - Decoder (3): Encoder-decoder self-attention онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Lennart Svensson 17 Ноябрь 2020, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 8,686 раз и оно понравилось 156 людям.