Visual Question Answering | VQA | Vision & Lang Transformer | ViLT | Show-Ask-Attend | Deep learning

Опубликовано: 31 Июль 2023
на канале: Image Processing, CV, ML, DL & AI Projects

230

Visual Question Answering (VQA)

given

1. an image and
2. a question about the image

attempts to answer the question

with different deep learning models

1. Show-Ask-Attend-Answer Deep learning Model
2. Vision & Language Transformer model (ViLT)

(pretrained on coco) with pytorch, the answer is predicted with logits / probabilities

#computervision #imageprocessing #imageprocessingpython #python #deeplearning #attention #vqa #nlp #lstm #pytorch

Смотрите видео Visual Question Answering | VQA | Vision & Lang Transformer | ViLT | Show-Ask-Attend | Deep learning онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Image Processing, CV, ML, DL & AI Projects 31 Июль 2023, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 230 раз и оно понравилось 3 людям.