Image-Classification

image classification with fine tuning the BEiT vision transformer on CIFAR 10 dataset

Model

The BEiT model is a Vision Transformer (ViT), which is a transformer encoder model (BERT-like). In contrast to the original ViT model, BEiT is pretrained on a large collection of images in a self-supervised fashion, namely ImageNet-21k, at a resolution of 224x224 pixels.

paper : https://arxiv.org/abs/2106.08254

Results

Train Acc.	Validation loss.	Test Acc.	Test loss.
0.978	0.073	0.983	0.059

Data

The CIFAR-10 dataset is a collection of 60,000 32x32 colour images in 10 classes, with 6000 images per class.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
README.md		README.md
main.ipynb		main.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LICENSE

LICENSE

README.md

README.md

main.ipynb

main.ipynb

Repository files navigation

Image-Classification

Model

Results

Data

About

Releases

Packages

Languages

License

MohammadRoodbari/Image-Classification

Folders and files

Latest commit

History

Repository files navigation

Image-Classification

Model

Results

Data

About

Topics

Resources

License

Stars

Watchers

Forks

Languages