Image-Video MultiModal Understanding - a oguzhanercan Collection

oguzhanercan 's Collections

Finetuning Strategies

Embedding Space İnterpretability

MultiModal Reasoning

Transformer Optimization / LLM & VLLM etc

Large Language Models

Auto Regressive Image Generation

Diffusion Language&MultiModal Modeling

Vision Reasoning

Subject Driven Generation Control

Representation Learning

Scene Generation

Training Theory

Image-Text Alignment

Control Based Video Generation Models

Video Generation Backbone Models

Video Generation Style Models

Image-Video General Tasks

Generation Quality Enhancement

Diffusion/Flow Model Optimization

Mobile Generative Models

Video Generation Control-Style Transfer

Diffusion-Score-Flow Guidance

Image Restoration (SR , Inpainting etc.)

Image-Video MultiModal Understanding

Face Generation-Swap-Contol-Edit

Architectural Proposals

Generative Modeling Approachs

Video Generation

Diffusion Model Control

Image Generation

Image-Video MultiModal Understanding

updated Dec 25, 2025