Skip to main content
Together AI supports two fine-tuning implementations:
  • LoRA: Trains a small set of adapter weights on top of the frozen base model.
  • Full fine-tuning: Updates every weight in the base model.
LoRA is the default on Together AI, because it trains 0.1% to 1% of the parameters that full fine-tuning would, costs less, and produces a compact adapter that the platform can serve on shared base hardware. Both supervised fine-tuning and preference fine-tuning support LoRA and full fine-tuning.

Choose a method

Use LoRA when:
  • You’re starting a new fine-tune: LoRA gets you a working model fastest and at the lowest cost.
  • You want to ship multiple adapters from the same base: Adapters are small and can be swapped on a single hosted base model.
  • You’re tuning style, format, or domain vocabulary: These are the kinds of updates that LoRA handles best.
Use full fine-tuning when:
  • The base behavior needs a substantial change: A model that doesn’t know the task you’re training for may need every weight updated, not just an adapter.
  • LoRA results plateau below your target: Try increasing lora_r and lora_alpha first, and if quality still falls short, switch to full fine-tuning.

Set the method on your job

LoRA is the default, so passing lora=True is optional. To run a full fine-tune, pass lora=False (or --no-lora on the CLI). Everything else about the job stays the same.
from together import Together

client = Together()

# LoRA (default) — lora=True is optional
job = client.fine_tuning.create(
    training_file="<FILE_ID>",
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Reference",
    lora=True,
)

# Full fine-tuning
job = client.fine_tuning.create(
    training_file="<FILE_ID>",
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Reference",
    lora=False,
)

LoRA settings

For the parameters that tune LoRA itself (lora_r, lora_alpha, lora_dropout, lora_trainable_modules), see the fine-tuning API reference.

Default target modules

When lora_trainable_modules isn’t set, Together applies LoRA to the modules in the tables below. Pass lora_trainable_modules="all-linear" to train every linear layer.

Text models

ModelDefault target modules
togethercomputer/llama-2-7b-chatk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3-8Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3-8B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3-70B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-8B-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-8B-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-8B-131k-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-8B-131k-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-32k-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-32k-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-131k-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Meta-Llama-3.1-70B-131k-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.2-1Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.2-1B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.2-3Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.2-3B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.3-70B-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.3-70B-32k-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-3.3-70B-131k-Instruct-Referencek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
meta-llama/Llama-4-Scout-17B-16Ek_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj
meta-llama/Llama-4-Scout-17B-16E-Instructk_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj
meta-llama/Llama-4-Maverick-17B-128Ek_proj, o_proj, q_proj, v_proj
meta-llama/Llama-4-Maverick-17B-128E-Instructk_proj, o_proj, q_proj, v_proj
mistralai/Mistral-7B-v0.1k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
mistralai/Mistral-7B-Instruct-v0.2k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
mistralai/Mixtral-8x7B-v0.1k_proj, o_proj, q_proj, v_proj
mistralai/Mixtral-8x7B-Instruct-v0.1k_proj, o_proj, q_proj, v_proj
Qwen/Qwen2-1.5Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2-1.5B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2-7Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2-7B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2-72Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2-72B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-1.5Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-1.5B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-3Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-3B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-7Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-7B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-14Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-14B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-32Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-32B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-72Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen2.5-72B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-0.6B-Basek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-0.6Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-1.7B-Basek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-1.7Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-4B-Basek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-4Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-8B-Basek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-8Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-14B-Basek_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-14Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-32Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-30B-A3B-Basek_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-30B-A3Bk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-30B-A3B-Instruct-2507k_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-235B-A22Bk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-235B-A22B-Instruct-2507k_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-Coder-30B-A3B-Instructk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-Coder-480B-A35B-Instructk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-Next-80B-A3B-Instructk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-Next-80B-A3B-Thinkingk_proj, o_proj, q_proj, v_proj
google/gemma-3-270mk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-270m-itk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-1b-itk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-1b-ptk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-4b-itk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-4b-ptk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-12b-itk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-12b-ptk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-27b-itk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-27b-ptk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-R1-Distill-Qwen-14Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-R1-Distill-Llama-70Bk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-32kk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-131kk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
deepseek-ai/DeepSeek-V3q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-R1q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-V3-Baseq_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-V3-0324q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-R1-0528q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-V3.1-Baseq_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
deepseek-ai/DeepSeek-V3.1q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
moonshotai/Kimi-K2-Instructq_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
moonshotai/Kimi-K2-Thinkingq_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
moonshotai/Kimi-K2-Baseq_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
moonshotai/Kimi-K2-Instruct-0905q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
moonshotai/Kimi-K2.5q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj
openai/gpt-oss-20bk_proj, o_proj, q_proj, v_proj
openai/gpt-oss-120bk_proj, o_proj, q_proj, v_proj
zai-org/GLM-4.6k_proj, o_proj, q_proj, v_proj
zai-org/GLM-4.7k_proj, o_proj, q_proj, v_proj

Multimodal models

ModelDefault target modules
meta-llama/Llama-4-Scout-17B-16E-Instruct-VLMk_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj
meta-llama/Llama-4-Maverick-17B-128E-Instruct-VLMk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-VL-8B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-VL-32B-Instructk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
Qwen/Qwen3-VL-30B-A3B-Instructk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3-VL-235B-A22B-Instructk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3.5-35B-A3Bk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3.5-35B-A3B-Basek_proj, o_proj, q_proj, v_proj
Qwen/Qwen3.5-122B-A10Bk_proj, o_proj, q_proj, v_proj
Qwen/Qwen3.5-397B-A17Bk_proj, o_proj, q_proj, v_proj
google/gemma-3-4b-it-VLMk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-12b-it-VLMk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj
google/gemma-3-27b-it-VLMk_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj

What to expect from full fine-tuning

  • Supported models: Full fine-tuning covers the same base models as LoRA, with a few exceptions. Long-context fine-tuning of Llama 3.1 models (32K to 131K) is LoRA-only, and some large vision-language models only support LoRA. See supported models for the per-model breakdown.
  • Smaller batch sizes: Because full fine-tuning updates every weight, it carries a larger memory footprint, so the maximum batch size for a given model is generally smaller than the LoRA equivalent.
  • Higher cost: Full fine-tuning trains every parameter rather than the 0.1% to 1% a LoRA job touches, so it consumes more compute and costs more. See pricing for details.

Serve your model

How you deploy depends on the method:
  • LoRA: After the job completes, deploy the merged model on a dedicated endpoint, or load just the adapter onto a shared base. See deployment and adapter upload.
  • Full fine-tuning: The job produces a complete model rather than a compact adapter, so it can’t share base hardware the way an adapter can. Deploy it on a dedicated endpoint, or download the weights for local use. See deployment.