A Robust Two-Stage Retrieval-Augmented Vision-Language Framework for Knowledge-Intensive Multimodal Reasoning and Alignment. CDIS- International Journal. 2026;2(2):42-52. doi:10.66279/2da0zk02