Visual Question Answering (VQA)
given
1. an image and
2. a question about the image
attempts to answer the question
with different deep learning models
1. Show-Ask-Attend-Answer Deep learning Model
2. Vision & Language Transformer model (ViLT)
(pretrained on coco) with pytorch, the answer is predicted with logits / probabilities
#computervision #imageprocessing #imageprocessingpython #python #deeplearning #attention #vqa #nlp #lstm #pytorch
Смотрите видео Visual Question Answering | VQA | Vision & Lang Transformer | ViLT | Show-Ask-Attend | Deep learning онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Image Processing, CV, ML, DL & AI Projects 31 Июль 2023, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 23 раз и оно понравилось людям.