Supported models

The tables below list every model available through the fine-tuning API. Context lengths are the maximum for that model in SFT and DPO modes. Batch sizes refer to packed batches for text formats. See data preparation for details on packing.

Some models can be fine-tuned but cannot be deployed as dedicated endpoints. To verify deployability before training, confirm the base model appears in the supported models list for dedicated model inference (or run tg beta models configs <BASE_MODEL>). If it isn’t listed there, the fine-tune can’t be hosted on a dedicated endpoint.

Fill out this form to request a model that isn’t in the list.

LoRA fine-tuning

Full fine-tuning

Vision-language

LoRA target modules

LoRA fine-tuning

Organization	Model	API ID	Context (SFT)	Context (DPO)	Max batch (SFT)	Max batch (DPO)	Min batch	Grad accum	Max LoRA rank
NVIDIA	NVIDIA Nemotron 3 Nano Omni 30B A3B Reasoning BF16	`nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16`	65536	32768	8	8	8	1	64
NVIDIA	NVIDIA Nemotron Nano 9B v2	`nvidia/NVIDIA-Nemotron-Nano-9B-v2`	32768	16384	8	8	8	1	64
NVIDIA	NVIDIA Nemotron 3 Super 120B A12B BF16	`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16`	49152	24576	4	4	4	2	64
Qwen	Qwen3.5 397B A17B	`Qwen/Qwen3.5-397B-A17B`	32768	16384	16	16	16	1	64
Qwen	Qwen3.5 122B A10B	`Qwen/Qwen3.5-122B-A10B`	65536	32768	16	16	16	1	64
Qwen	Qwen3.5 35B A3B	`Qwen/Qwen3.5-35B-A3B`	65536	32768	8	8	8	1	64
Qwen	Qwen3.5 35B A3B Base	`Qwen/Qwen3.5-35B-A3B-Base`	65536	32768	8	8	8	1	64
Qwen	Qwen3.5 27B	`Qwen/Qwen3.5-27B`	32768	16384	16	16	16	1	64
Qwen	Qwen3.5 9B	`Qwen/Qwen3.5-9B`	65536	49152	8	8	8	1	64
Qwen	Qwen3.5 4B	`Qwen/Qwen3.5-4B`	131072	65536	8	8	8	1	64
Qwen	Qwen3.5 2B	`Qwen/Qwen3.5-2B`	131072	131072	8	8	8	1	64
Qwen	Qwen3.5 0.8B	`Qwen/Qwen3.5-0.8B`	131072	131072	8	8	8	1	64
Qwen	Qwen3.6 35B A3B	`Qwen/Qwen3.6-35B-A3B`	65536	32768	8	8	8	1	64
Qwen	Qwen3 Next 80B A3B Instruct	`Qwen/Qwen3-Next-80B-A3B-Instruct`	16384	24576	16	16	16	1	64
Qwen	Qwen3 Next 80B A3B Thinking	`Qwen/Qwen3-Next-80B-A3B-Thinking`	16384	24576	16	16	16	1	64
Qwen	Qwen3 0.6B	`Qwen/Qwen3-0.6B`	40960	40960	64	32	8	1	64
Qwen	Qwen3 0.6B Base	`Qwen/Qwen3-0.6B-Base`	32768	32768	64	32	8	1	64
Qwen	Qwen3 1.7B	`Qwen/Qwen3-1.7B`	40960	40960	32	16	8	1	64
Qwen	Qwen3 1.7B Base	`Qwen/Qwen3-1.7B-Base`	32768	32768	32	16	8	1	64
Qwen	Qwen3 4B	`Qwen/Qwen3-4B`	40960	40960	16	8	8	1	64
Qwen	Qwen3 4B Base	`Qwen/Qwen3-4B-Base`	32768	32768	16	8	8	1	64
Qwen	Qwen3 8B	`Qwen/Qwen3-8B`	40960	40960	8	8	8	1	64
Qwen	Qwen3 8B Base	`Qwen/Qwen3-8B-Base`	32768	32768	16	8	8	1	64
Qwen	Qwen3 14B	`Qwen/Qwen3-14B`	40960	40960	8	8	8	1	64
Qwen	Qwen3 14B Base	`Qwen/Qwen3-14B-Base`	32768	32768	8	8	8	1	64
Qwen	Qwen3 32B	`Qwen/Qwen3-32B`	40960	24576	8	8	8	1	64
Qwen	Qwen3 30B A3B Base	`Qwen/Qwen3-30B-A3B-Base`	49152	32768	16	8	8	1	64
Qwen	Qwen3 30B A3B	`Qwen/Qwen3-30B-A3B`	49152	32768	16	8	8	1	64
Qwen	Qwen3 30B A3B Instruct 2507	`Qwen/Qwen3-30B-A3B-Instruct-2507`	49152	32768	16	8	8	1	64
Qwen	Qwen3 235B A22B	`Qwen/Qwen3-235B-A22B`	40960	32768	8	8	8	2	64
Qwen	Qwen3 235B A22B Instruct 2507	`Qwen/Qwen3-235B-A22B-Instruct-2507`	49152	32768	8	8	8	2	64
Qwen	Qwen3 Coder 30B A3B Instruct	`Qwen/Qwen3-Coder-30B-A3B-Instruct`	262144	262144	2	2	2	4	64
Qwen	Qwen3 Coder 480B A35B Instruct	`Qwen/Qwen3-Coder-480B-A35B-Instruct`	262144	65536	2	2	2	8	64
Qwen	Qwen3 VL 8B Instruct	`Qwen/Qwen3-VL-8B-Instruct`	24576	16384	8	8	8	1	64
Qwen	Qwen3 VL 32B Instruct	`Qwen/Qwen3-VL-32B-Instruct`	16384	16384	8	8	8	1	64
Qwen	Qwen3 VL 30B A3B Instruct	`Qwen/Qwen3-VL-30B-A3B-Instruct`	12288	12288	8	8	8	1	64
Qwen	Qwen3 VL 235B A22B Instruct	`Qwen/Qwen3-VL-235B-A22B-Instruct`	12288	12288	16	16	16	1	64
Qwen	Qwen2.5 72B Instruct	`Qwen/Qwen2.5-72B-Instruct`	24576	12288	8	8	8	1	64
Qwen	Qwen2.5 72B	`Qwen/Qwen2.5-72B`	24576	12288	8	8	8	1	64
Qwen	Qwen2.5 32B Instruct	`Qwen/Qwen2.5-32B-Instruct`	32768	32768	8	8	8	1	64
Qwen	Qwen2.5 32B	`Qwen/Qwen2.5-32B`	49152	32768	8	8	8	1	64
Qwen	Qwen2.5 14B Instruct	`Qwen/Qwen2.5-14B-Instruct`	32768	32768	8	8	8	1	64
Qwen	Qwen2.5 14B	`Qwen/Qwen2.5-14B`	65536	49152	8	8	8	1	64
Qwen	Qwen2.5 7B Instruct	`Qwen/Qwen2.5-7B-Instruct`	32768	32768	16	8	8	1	64
Qwen	Qwen2.5 7B	`Qwen/Qwen2.5-7B`	131072	65536	8	8	8	1	64
Qwen	Qwen2.5 3B Instruct	`Qwen/Qwen2.5-3B-Instruct`	32768	32768	32	16	8	1	64
Qwen	Qwen2.5 3B	`Qwen/Qwen2.5-3B`	32768	32768	32	16	8	1	64
Qwen	Qwen2.5 1.5B Instruct	`Qwen/Qwen2.5-1.5B-Instruct`	32768	32768	32	16	8	1	64
Qwen	Qwen2.5 1.5B	`Qwen/Qwen2.5-1.5B`	131072	131072	8	8	8	1	64
Qwen	Qwen2 72B Instruct	`Qwen/Qwen2-72B-Instruct`	32768	16384	16	16	16	1	64
Qwen	Qwen2 72B	`Qwen/Qwen2-72B`	32768	16384	16	16	16	1	64
Qwen	Qwen2 7B Instruct	`Qwen/Qwen2-7B-Instruct`	32768	32768	8	8	8	1	64
Qwen	Qwen2 7B	`Qwen/Qwen2-7B`	131072	24576	8	8	8	1	64
Qwen	Qwen2 1.5B Instruct	`Qwen/Qwen2-1.5B-Instruct`	32768	32768	32	16	8	1	64
Qwen	Qwen2 1.5B	`Qwen/Qwen2-1.5B`	131072	131072	8	8	8	1	64
Moonshot AI	Kimi K2.7 Code	`moonshotai/Kimi-K2.7-Code`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2.6	`moonshotai/Kimi-K2.6`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2.5	`moonshotai/Kimi-K2.5`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2 Thinking	`moonshotai/Kimi-K2-Thinking`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2 Instruct 0905	`moonshotai/Kimi-K2-Instruct-0905`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2 Instruct	`moonshotai/Kimi-K2-Instruct`	32768	16384	4	4	4	8	16
Moonshot AI	Kimi K2 Base	`moonshotai/Kimi-K2-Base`	32768	16384	4	4	4	8	16
Z.ai	GLM 5.1	`zai-org/GLM-5.1`	50688	25344	1	1	1	1	16
Z.ai	GLM 5	`zai-org/GLM-5`	50688	25344	1	1	1	1	16
Z.ai	GLM 4.7	`zai-org/GLM-4.7`	128000	64000	1	1	1	8	64
Z.ai	GLM 4.6	`zai-org/GLM-4.6`	128000	64000	1	1	1	8	64
OpenAI	GPT-OSS 20B	`openai/gpt-oss-20b`	131072	65536	1	1	1	8	64
OpenAI	GPT-OSS 120B	`openai/gpt-oss-120b`	65536	32768	2	2	2	8	64
DeepSeek	DeepSeek R1 0528	`deepseek-ai/DeepSeek-R1-0528`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek R1	`deepseek-ai/DeepSeek-R1`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek V3.1	`deepseek-ai/DeepSeek-V3.1`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek V3 0324	`deepseek-ai/DeepSeek-V3-0324`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek V3	`deepseek-ai/DeepSeek-V3`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek V3.1 Base	`deepseek-ai/DeepSeek-V3.1-Base`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek V3 Base	`deepseek-ai/DeepSeek-V3-Base`	65536	32768	2	2	2	8	16
DeepSeek	DeepSeek R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	24576	12288	8	8	8	1	64
DeepSeek	DeepSeek R1 Distill Llama 70B 32k	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B-32k`	32768	32768	1	1	1	8	64
DeepSeek	DeepSeek R1 Distill Llama 70B 131k	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B-131k`	131072	32768	1	1	1	8	64
DeepSeek	DeepSeek R1 Distill Qwen 14B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-14B`	65536	32768	8	8	8	1	64
DeepSeek	DeepSeek R1 Distill Qwen 1.5B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B`	131072	131072	8	8	8	1	64
Meta	Llama 4 Scout 17B 16E	`meta-llama/Llama-4-Scout-17B-16E`	65536	12288	8	8	8	1	64
Meta	Llama 4 Scout 17B 16E Instruct	`meta-llama/Llama-4-Scout-17B-16E-Instruct`	65536	12288	8	8	8	1	64
Meta	Llama 4 Scout 17B 16E Instruct VLM	`meta-llama/Llama-4-Scout-17B-16E-Instruct-VLM`	32768	32768	8	8	8	1	64
Meta	Llama 4 Maverick 17B 128E	`meta-llama/Llama-4-Maverick-17B-128E`	16384	16384	16	16	16	1	64
Meta	Llama 4 Maverick 17B 128E Instruct	`meta-llama/Llama-4-Maverick-17B-128E-Instruct`	16384	24576	16	16	16	1	64
Meta	Llama 4 Maverick 17B 128E Instruct VLM	`meta-llama/Llama-4-Maverick-17B-128E-Instruct-VLM`	16384	16384	16	16	16	1	64
Meta	Llama 3.3 70B Instruct Reference	`meta-llama/Llama-3.3-70B-Instruct-Reference`	24576	12288	8	8	8	1	64
Meta	Llama 3.3 70B 32k Instruct Reference	`meta-llama/Llama-3.3-70B-32k-Instruct-Reference`	32768	32768	1	1	1	8	64
Meta	Llama 3.3 70B 131k Instruct Reference	`meta-llama/Llama-3.3-70B-131k-Instruct-Reference`	131072	65536	1	1	1	8	64
Meta	Llama 3.2 3B Instruct	`meta-llama/Llama-3.2-3B-Instruct`	131072	65536	8	8	8	1	64
Meta	Llama 3.2 3B	`meta-llama/Llama-3.2-3B`	131072	65536	8	8	8	1	64
Meta	Llama 3.2 1B Instruct	`meta-llama/Llama-3.2-1B-Instruct`	131072	131072	8	8	8	1	64
Meta	Llama 3.2 1B	`meta-llama/Llama-3.2-1B`	131072	131072	8	8	8	1	64
Meta	Meta Llama 3.1 8B Instruct Reference	`meta-llama/Meta-Llama-3.1-8B-Instruct-Reference`	131072	65536	8	8	8	1	64
Meta	Meta Llama 3.1 8B 131k Instruct Reference	`meta-llama/Meta-Llama-3.1-8B-131k-Instruct-Reference`	131072	131072	4	1	1	1	64
Meta	Meta Llama 3.1 8B Reference	`meta-llama/Meta-Llama-3.1-8B-Reference`	131072	65536	8	8	8	1	64
Meta	Meta Llama 3.1 8B 131k Reference	`meta-llama/Meta-Llama-3.1-8B-131k-Reference`	131072	131072	4	1	1	1	64
Meta	Meta Llama 3.1 70B Instruct Reference	`meta-llama/Meta-Llama-3.1-70B-Instruct-Reference`	24576	12288	8	8	8	1	64
Meta	Meta Llama 3.1 70B 32k Instruct Reference	`meta-llama/Meta-Llama-3.1-70B-32k-Instruct-Reference`	32768	32768	1	1	1	8	64
Meta	Meta Llama 3.1 70B 131k Instruct Reference	`meta-llama/Meta-Llama-3.1-70B-131k-Instruct-Reference`	131072	65536	1	1	1	8	64
Meta	Meta Llama 3.1 70B Reference	`meta-llama/Meta-Llama-3.1-70B-Reference`	24576	12288	8	8	8	1	64
Meta	Meta Llama 3.1 70B 32k Reference	`meta-llama/Meta-Llama-3.1-70B-32k-Reference`	32768	32768	1	1	1	8	64
Meta	Meta Llama 3.1 70B 131k Reference	`meta-llama/Meta-Llama-3.1-70B-131k-Reference`	131072	65536	1	1	1	8	64
Meta	Meta Llama 3 8B Instruct	`meta-llama/Meta-Llama-3-8B-Instruct`	8192	8192	64	32	8	1	64
Meta	Meta Llama 3 8B	`meta-llama/Meta-Llama-3-8B`	8192	8192	64	32	8	1	64
Meta	Meta Llama 3 70B Instruct	`meta-llama/Meta-Llama-3-70B-Instruct`	8192	8192	8	8	8	1	64
Google	Gemma 3 270M	`google/gemma-3-270m`	32768	32768	128	64	8	1	64
Google	Gemma 3 270M IT	`google/gemma-3-270m-it`	32768	32768	128	64	8	1	64
Google	Gemma 3 1B IT	`google/gemma-3-1b-it`	32768	32768	32	16	8	1	64
Google	Gemma 3 1B PT	`google/gemma-3-1b-pt`	32768	32768	32	16	8	1	64
Google	Gemma 3 4B IT	`google/gemma-3-4b-it`	131072	65536	8	8	8	1	64
Google	Gemma 3 4B IT VLM	`google/gemma-3-4b-it-VLM`	32768	32768	8	8	8	1	64
Google	Gemma 3 4B PT	`google/gemma-3-4b-pt`	131072	65536	8	8	8	1	64
Google	Gemma 3 12B IT	`google/gemma-3-12b-it`	65536	49152	8	8	8	1	64
Google	Gemma 3 12B IT VLM	`google/gemma-3-12b-it-VLM`	32768	32768	8	8	8	1	64
Google	Gemma 3 12B PT	`google/gemma-3-12b-pt`	65536	49152	8	8	8	1	64
Google	Gemma 3 27B IT	`google/gemma-3-27b-it`	49152	24576	8	8	8	1	64
Google	Gemma 3 27B IT VLM	`google/gemma-3-27b-it-VLM`	32768	24576	8	8	8	1	64
Google	Gemma 3 27B PT	`google/gemma-3-27b-pt`	49152	24576	8	8	8	1	64
Google	Gemma 4 31B IT	`google/gemma-4-31B-it`	49152	24576	4	4	4	2	64
Google	Gemma 4 31B IT VLM	`google/gemma-4-31B-it-VLM`	24576	12288	8	8	8	1	64
Google	Gemma 4 26B A4B IT	`google/gemma-4-26B-A4B-it`	49152	24576	4	4	4	2	64
Mistral	Mixtral 8x7B Instruct v0.1	`mistralai/Mixtral-8x7B-Instruct-v0.1`	32768	16384	8	8	8	1	64
Mistral	Mixtral 8x7B v0.1	`mistralai/Mixtral-8x7B-v0.1`	32768	16384	8	8	8	1	64
Mistral	Mistral 7B Instruct v0.2	`mistralai/Mistral-7B-Instruct-v0.2`	32768	32768	16	8	8	1	64
Mistral	Mistral 7B v0.1	`mistralai/Mistral-7B-v0.1`	32768	32768	16	8	8	1	64
Together	Llama 2 7B Chat	`togethercomputer/llama-2-7b-chat`	4096	4096	128	64	8	1	64

Full fine-tuning

Organization	Model	API ID	Context (SFT)	Context (DPO)	Max batch (SFT)	Max batch (DPO)	Min batch
NVIDIA	NVIDIA Nemotron Nano 9B v2	`nvidia/NVIDIA-Nemotron-Nano-9B-v2`	32768	16384	8	8	8
Qwen	Qwen3.5 27B	`Qwen/Qwen3.5-27B`	32768	16384	16	16	16
Qwen	Qwen3.5 9B	`Qwen/Qwen3.5-9B`	65536	49152	8	8	8
Qwen	Qwen3.5 4B	`Qwen/Qwen3.5-4B`	131072	65536	8	8	8
Qwen	Qwen3.5 2B	`Qwen/Qwen3.5-2B`	131072	131072	8	8	8
Qwen	Qwen3.5 0.8B	`Qwen/Qwen3.5-0.8B`	131072	131072	8	8	8
Qwen	Qwen3 0.6B	`Qwen/Qwen3-0.6B`	40960	40960	64	32	8
Qwen	Qwen3 0.6B Base	`Qwen/Qwen3-0.6B-Base`	32768	32768	64	32	8
Qwen	Qwen3 1.7B	`Qwen/Qwen3-1.7B`	40960	40960	32	16	8
Qwen	Qwen3 1.7B Base	`Qwen/Qwen3-1.7B-Base`	32768	32768	32	16	8
Qwen	Qwen3 4B	`Qwen/Qwen3-4B`	40960	40960	16	8	8
Qwen	Qwen3 4B Base	`Qwen/Qwen3-4B-Base`	32768	32768	16	8	8
Qwen	Qwen3 8B	`Qwen/Qwen3-8B`	40960	40960	8	8	8
Qwen	Qwen3 8B Base	`Qwen/Qwen3-8B-Base`	32768	32768	16	8	8
Qwen	Qwen3 14B	`Qwen/Qwen3-14B`	40960	40960	8	8	8
Qwen	Qwen3 14B Base	`Qwen/Qwen3-14B-Base`	32768	32768	8	8	8
Qwen	Qwen3 32B	`Qwen/Qwen3-32B`	40960	24576	16	16	16
Qwen	Qwen3 VL 8B Instruct	`Qwen/Qwen3-VL-8B-Instruct`	24576	16384	8	8	8
Qwen	Qwen3 VL 32B Instruct	`Qwen/Qwen3-VL-32B-Instruct`	16384	16384	16	16	16
Qwen	Qwen3 VL 30B A3B Instruct	`Qwen/Qwen3-VL-30B-A3B-Instruct`	12288	12288	8	8	8
Qwen	Qwen2 7B Instruct	`Qwen/Qwen2-7B-Instruct`	32768	32768	8	8	8
Qwen	Qwen2 7B	`Qwen/Qwen2-7B`	131072	24576	8	8	8
Qwen	Qwen2 1.5B Instruct	`Qwen/Qwen2-1.5B-Instruct`	32768	32768	32	16	8
Qwen	Qwen2 1.5B	`Qwen/Qwen2-1.5B`	131072	131072	8	8	8
DeepSeek	DeepSeek R1 Distill Llama 70B	`deepseek-ai/DeepSeek-R1-Distill-Llama-70B`	24576	12288	32	32	32
DeepSeek	DeepSeek R1 Distill Qwen 14B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-14B`	65536	32768	8	8	8
DeepSeek	DeepSeek R1 Distill Qwen 1.5B	`deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B`	131072	131072	8	8	8
Meta	Llama 3.3 70B Instruct Reference	`meta-llama/Llama-3.3-70B-Instruct-Reference`	24576	12288	32	32	32
Meta	Llama 3.2 3B Instruct	`meta-llama/Llama-3.2-3B-Instruct`	131072	65536	8	8	8
Meta	Llama 3.2 3B	`meta-llama/Llama-3.2-3B`	131072	65536	8	8	8
Meta	Llama 3.2 1B Instruct	`meta-llama/Llama-3.2-1B-Instruct`	131072	131072	8	8	8
Meta	Llama 3.2 1B	`meta-llama/Llama-3.2-1B`	131072	131072	8	8	8
Meta	Meta Llama 3.1 8B Instruct Reference	`meta-llama/Meta-Llama-3.1-8B-Instruct-Reference`	131072	65536	8	8	8
Meta	Meta Llama 3.1 8B Reference	`meta-llama/Meta-Llama-3.1-8B-Reference`	131072	65536	8	8	8
Meta	Meta Llama 3.1 70B Instruct Reference	`meta-llama/Meta-Llama-3.1-70B-Instruct-Reference`	24576	12288	32	32	32
Meta	Meta Llama 3.1 70B Reference	`meta-llama/Meta-Llama-3.1-70B-Reference`	24576	12288	32	32	32
Meta	Meta Llama 3 8B Instruct	`meta-llama/Meta-Llama-3-8B-Instruct`	8192	8192	64	32	8
Meta	Meta Llama 3 8B	`meta-llama/Meta-Llama-3-8B`	8192	8192	64	32	8
Meta	Meta Llama 3 70B Instruct	`meta-llama/Meta-Llama-3-70B-Instruct`	8192	8192	32	32	32
Google	Gemma 3 270M	`google/gemma-3-270m`	32768	32768	128	64	8
Google	Gemma 3 270M IT	`google/gemma-3-270m-it`	32768	32768	128	64	8
Google	Gemma 3 1B IT	`google/gemma-3-1b-it`	32768	32768	64	32	8
Google	Gemma 3 1B PT	`google/gemma-3-1b-pt`	32768	32768	64	32	8
Google	Gemma 3 4B IT	`google/gemma-3-4b-it`	131072	65536	8	8	8
Google	Gemma 3 4B IT VLM	`google/gemma-3-4b-it-VLM`	32768	32768	8	8	8
Google	Gemma 3 4B PT	`google/gemma-3-4b-pt`	131072	65536	8	8	8
Google	Gemma 3 12B IT	`google/gemma-3-12b-it`	65536	49152	8	8	8
Google	Gemma 3 12B IT VLM	`google/gemma-3-12b-it-VLM`	32768	32768	8	8	8
Google	Gemma 3 12B PT	`google/gemma-3-12b-pt`	65536	49152	8	8	8
Google	Gemma 3 27B IT	`google/gemma-3-27b-it`	49152	24576	16	16	16
Google	Gemma 3 27B IT VLM	`google/gemma-3-27b-it-VLM`	32768	24576	16	16	16
Google	Gemma 3 27B PT	`google/gemma-3-27b-pt`	49152	24576	16	16	16
Google	Gemma 4 31B IT	`google/gemma-4-31B-it`	49152	24576	8	8	8
Google	Gemma 4 31B IT VLM	`google/gemma-4-31B-it-VLM`	24576	12288	16	16	16
Mistral	Mixtral 8x7B Instruct v0.1	`mistralai/Mixtral-8x7B-Instruct-v0.1`	32768	16384	16	16	16
Mistral	Mixtral 8x7B v0.1	`mistralai/Mixtral-8x7B-v0.1`	32768	16384	16	16	16
Mistral	Mistral 7B Instruct v0.2	`mistralai/Mistral-7B-Instruct-v0.2`	32768	32768	16	8	8
Mistral	Mistral 7B v0.1	`mistralai/Mistral-7B-v0.1`	32768	32768	16	8	8
Together	Llama 2 7B Chat	`togethercomputer/llama-2-7b-chat`	4096	4096	128	64	8

Vision-language models

For the list of models that support vision-language fine-tuning on image and text data, along with the dataset schema and the train_vision parameter, see vision fine-tuning.

LoRA target modules

See LoRA vs. full fine-tuning for the default target modules per model. Pass lora_trainable_modules="all-linear" to train every linear layer.

GET STARTED

SERVERLESS

INFERENCE APIS

DEDICATED MODEL INFERENCE

DEDICATED CONTAINER INFERENCE

GPU CLUSTERS

FINE-TUNING

CODE EXECUTION

ADMINISTRATION

LoRA fine-tuning

Full fine-tuning

Vision-language

LoRA target modules

LoRA fine-tuning

Full fine-tuning

Vision-language models

LoRA target modules

LoRA fine-tuning

Full fine-tuning

Vision-language

LoRA target modules

​LoRA fine-tuning

​Full fine-tuning

​Vision-language models

​LoRA target modules

LoRA fine-tuning

Full fine-tuning

Vision-language models

LoRA target modules