- LoRA: Trains a small set of adapter weights on top of the frozen base model.
- Full fine-tuning: Updates every weight in the base model.
Choose a method
Use LoRA when:- You’re starting a new fine-tune: LoRA gets you a working model fastest and at the lowest cost.
- You want to ship multiple adapters from the same base: Adapters are small and can be swapped on a single hosted base model.
- You’re tuning style, format, or domain vocabulary: These are the kinds of updates that LoRA handles best.
- The base behavior needs a substantial change: A model that doesn’t know the task you’re training for may need every weight updated, not just an adapter.
- LoRA results plateau below your target: Try increasing
lora_randlora_alphafirst, and if quality still falls short, switch to full fine-tuning.
Set the method on your job
LoRA is the default, so passinglora=True is optional. To run a full fine-tune, pass lora=False (or --no-lora on the CLI). Everything else about the job stays the same.
LoRA settings
For the parameters that tune LoRA itself (lora_r, lora_alpha, lora_dropout, lora_trainable_modules), see the fine-tuning API reference.
Default target modules
Whenlora_trainable_modules isn’t set, Together applies LoRA to the modules in the tables below. Pass lora_trainable_modules="all-linear" to train every linear layer.
Default target modules by model
Default target modules by model
Text models
| Model | Default target modules |
|---|---|
togethercomputer/llama-2-7b-chat | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-8B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-8B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-70B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-131k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-32k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-32k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-131k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-1B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-1B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-3B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-3B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-32k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-4-Scout-17B-16E | k_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj |
meta-llama/Llama-4-Scout-17B-16E-Instruct | k_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj |
meta-llama/Llama-4-Maverick-17B-128E | k_proj, o_proj, q_proj, v_proj |
meta-llama/Llama-4-Maverick-17B-128E-Instruct | k_proj, o_proj, q_proj, v_proj |
mistralai/Mistral-7B-v0.1 | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
mistralai/Mistral-7B-Instruct-v0.2 | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
mistralai/Mixtral-8x7B-v0.1 | k_proj, o_proj, q_proj, v_proj |
mistralai/Mixtral-8x7B-Instruct-v0.1 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen2-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-1.5B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-7B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-72B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-72B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-1.5B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-3B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-3B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-7B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-14B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-32B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-32B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-72B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-72B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-0.6B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-0.6B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-1.7B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-1.7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-4B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-4B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-8B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-8B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-14B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-32B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-30B-A3B-Base | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-30B-A3B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-30B-A3B-Instruct-2507 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-235B-A22B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-235B-A22B-Instruct-2507 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Coder-30B-A3B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Coder-480B-A35B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Next-80B-A3B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Next-80B-A3B-Thinking | k_proj, o_proj, q_proj, v_proj |
google/gemma-3-270m | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-270m-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-1b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-1b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-4b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-4b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-12b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-12b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-27b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-27b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-32k | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-131k | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-V3 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-R1 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3-0324 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-R1-0528 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3.1-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3.1 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Instruct | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Thinking | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Instruct-0905 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2.5 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
openai/gpt-oss-20b | k_proj, o_proj, q_proj, v_proj |
openai/gpt-oss-120b | k_proj, o_proj, q_proj, v_proj |
zai-org/GLM-4.6 | k_proj, o_proj, q_proj, v_proj |
zai-org/GLM-4.7 | k_proj, o_proj, q_proj, v_proj |
Multimodal models
| Model | Default target modules |
|---|---|
meta-llama/Llama-4-Scout-17B-16E-Instruct-VLM | k_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj |
meta-llama/Llama-4-Maverick-17B-128E-Instruct-VLM | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-VL-8B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-VL-32B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-VL-30B-A3B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-VL-235B-A22B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3.5-35B-A3B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3.5-35B-A3B-Base | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3.5-122B-A10B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3.5-397B-A17B | k_proj, o_proj, q_proj, v_proj |
google/gemma-3-4b-it-VLM | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-12b-it-VLM | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-27b-it-VLM | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
What to expect from full fine-tuning
- Supported models: Full fine-tuning covers the same base models as LoRA, with a few exceptions. Long-context fine-tuning of Llama 3.1 models (32K to 131K) is LoRA-only, and some large vision-language models only support LoRA. See supported models for the per-model breakdown.
- Smaller batch sizes: Because full fine-tuning updates every weight, it carries a larger memory footprint, so the maximum batch size for a given model is generally smaller than the LoRA equivalent.
- Higher cost: Full fine-tuning trains every parameter rather than the 0.1% to 1% a LoRA job touches, so it consumes more compute and costs more. See pricing for details.
Serve your model
How you deploy depends on the method:- LoRA: After the job completes, deploy the merged model on a dedicated endpoint, or load just the adapter onto a shared base. See deployment and adapter upload.
- Full fine-tuning: The job produces a complete model rather than a compact adapter, so it can’t share base hardware the way an adapter can. Deploy it on a dedicated endpoint, or download the weights for local use. See deployment.