vision-and-language

Here are 220 public repositories matching this topic...

wangzheallen / STL-VQA

The good practice in the VQA system such as pos-tag attention, structed triplet learning and triplet attention is very general and can be inserted into almost any visual and language task

practice deep-learning tensorflow vqa vision-and-language

Updated Jan 23, 2018
Python

tanmaybinaykiya / CS231N-CNN-Solutions

Star

My solutions to CS231N CNN assignments

python natural-language-processing computer-vision deep-learning pytorch cs231n-assignment vision-and-language

Updated Mar 14, 2018
Jupyter Notebook

candacelax / grounded-vision-parser

Star

semantic parser trained by using videos only instead of labeled logical forms

natural-language-processing semantic-parsing vision-and-language combinatory-categorial-grammar

Updated Apr 1, 2019
Java

JunweiLiang / FVTA_MemexQA

Star

Real-world photo sequence question answering system (MemexQA). CVPR'18 and TPAMI'19

visual-question-answering vision-and-language multimodal-deep-learning multimodal-datasets multimodal-representation memex-question-answering memexqa-dataset

Updated Jul 1, 2019
Python

batra-mlp-lab / vln-chasing-ghosts

Star

Code for 'Chasing Ghosts: Instruction Following as Bayesian State Tracking' published at NeurIPS 2019

vision-and-language neurips neurips-2019 vision-and-language-navigation vln

Updated Jan 10, 2020
C++

satwikkottur / clevr-dialog

Star

Repository to generate CLEVR-Dialog: A diagnostic dataset for Visual Dialog

computer-vision deep-learning dataset-generation dialogue-generation visual-dialog vision-and-language

Updated Feb 18, 2020
Python

passerby233 / VSCMR-Visual-Storytelling-with-Corss-Modal-Rules

Star

Visual Storytelling with Cross-Modal Rules

vision-and-language visual-storytelling multi-modal-rule-mining

Updated Feb 26, 2020
Jupyter Notebook

ChenyunWu / PhraseCutDataset

Star

Dataset API for "PhraseCut: Language-based Image Segmentation in the Wild"

computer-vision datasets umass-amherst vision-and-language visual-grounding referring-image-segmentation cvpr2020

Updated May 13, 2020
Jupyter Notebook

miletliyusuf / VisionDetect

Star

VisionDetect let you track user face gestures like blink, smile etc.

swift swift-library ios camera cocoapods carthage vision vision-api vision-and-language

Updated May 25, 2020
Swift

TheShadow29 / vognet-pytorch

Star

[CVPR20] Video Object Grounding using Semantic Roles in Language Description (https://arxiv.org/abs/2003.10606)

nlp video vision captioning-videos vision-and-language grounding pytorch-implementation visual-grounding video-grounding video-object-grounding object-grounding

Updated Jun 10, 2020
Python

itsShnik / allForOne

Star

PyTorch implementation of the paper: All For One: Multi-modal Multi-Task Learning

deep-learning sentiment-classification multi-task-learning visual-question-answering vision-and-language multi-modal-learning

Updated Jul 17, 2020
Python

chihyaoma / cyclical-visual-captioning

Star

PyTorch code for: Learning to Generate Grounded Visual Captions without Localization Supervision

pytorch captioning-images captioning-videos vision-and-language visual-grounding

Updated Jul 29, 2020
Python

yanbeic / VAL

Star

Tensorflow Implementation on Paper [CVPR2020]Image Search with Text Feedback by Visiolinguistic Attention Learning

retrieval tensorflow attention image-search vision-and-language cvpr2020

Updated Sep 12, 2020
Python

fenglinliu98 / MIA

Star

Code for "Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations" （NeurIPS 2019）

image-captioning mscoco-image-dataset vision-and-language image-representations

Updated Oct 19, 2020
Python

zhegan27 / LXMERT-AdvTrain

Star

Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": LXMERT adversarial training part

visual-question-answering vision-and-language adversarial-training neurips-2020

Updated Oct 20, 2020
Python

zipengxuc / ADVSE-GuessWhat

Star

Code for ACMMM'20 ✨"Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue"

visual-dialog vision-and-language acmmm2020

Updated Dec 3, 2020
Python

zhegan27 / VILLA

Star

Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": UNITER adversarial training part

visual-question-answering vision-and-language adversarial-training pretraining neurips-2020