Qwen3+PDAPT+SLERP - a PARTAGES-dev Collection

PARTAGES-dev 's Collections

Encoder pretraining from scratch (commercial use)

Encoder continual pretraining (research use)

Qwen3+PDAPT+SLERP

Qwen3+PDAPT+SLERP

updated 10 days ago

Experiments conducted for the LREC paper (https://arxiv.org/abs/2604.06903)

PARTAGES-dev/Qwen3-8B-PDAPT-SLERP

Text Generation • 8B • Updated Apr 8 • 41
PARTAGES-dev/Qwen3-4B-PDAPT-SLERP

Text Generation • 4B • Updated Dec 3, 2025 • 1 •
Qwen/Qwen3-8B-Base

Text Generation • 8B • Updated May 21, 2025 • 418k • • 104
Qwen/Qwen3-4B-Base

Text Generation • 4B • Updated Jul 26, 2025 • 759k • • 91
Qwen/Qwen3-1.7B-Base

Text Generation • 2B • Updated Jul 26, 2025 • 546k • • 72
Qwen/Qwen3-0.6B-Base

Text Generation • 0.6B • Updated Jul 26, 2025 • 518k • • 169
PARTAGES-dev/Qwen3-1.7B-PDAPT-SLERP

Text Generation • 2B • Updated Feb 25 • 1
PARTAGES-dev/Qwen3-0.6B-PDAPT-SLERP

Text Generation • 0.8B • Updated Dec 4, 2025 • 5 •