HCMUS_TheFangs at NakbaArchiveClassifier Shared Task: Foundation Models and Advanced Training Strategies for Conflict Damage Classification

Proceedings of the 2nd International Workshop on Nakba Narratives as Language Resources @ LREC 2026

Abstract

We present our system for the NakbaArchiveClassifier shared task at Nakba-NLP 2026, which requires classifying Instagram images from Gaza as showing destroyed or damaged infrastructure versus intact surroundings. Working with a small, imbalanced dataset (1,400 training images; 1.83:1 class ratio), we conduct a systematic empirical study of six model-training combinations spanning five architecture families: standard CNNs (EfficientNet-B4), self-supervised ViTs (DINOv2-ViT-L), hybrid multi-axis Transformers (MaxViT-Base), masked-image-modelling ViTs (EVA-02-Base), and large-kernel CNNs (UniRepLKNet). For our best performing configuration–MaxViT-Base with focal loss, MixUp, and a rich geometric augmentation pipeline–we provide a detailed component analysis. Our system achieves a macro F1 of 0.899 on the public test set, ranking 1st on the competition leaderboard. We additionally report findings from novel experiments including a Kolmogorov-Arnold Network (KAN) classification head and VLM-regularized training with BLIP-2-generated captions, offering insights into what does and does not transfer to conflict-domain imagery under severe data scarcity.