> ## Documentation Index
> Fetch the complete documentation index at: https://docs.together.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# LoRA supported modules

> Supported target modules for LoRA fine-tuning by model

The following table lists the default LoRA target modules for each supported model.
When `all-linear` is chosen, all modules from the list are selected as trainable.

## Text Models

| Model                                                   | Default Target Modules                                                                                                                                                                            |
| ------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `togethercomputer/llama-2-7b-chat`                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3-8B`                            | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3-8B-Instruct`                   | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3-70B-Instruct`                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-8B-Reference`                | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-8B-Instruct-Reference`       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-8B-131k-Reference`           | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-8B-131k-Instruct-Reference`  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-Reference`               | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-Instruct-Reference`      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-32k-Reference`           | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-32k-Instruct-Reference`  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-131k-Reference`          | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Meta-Llama-3.1-70B-131k-Instruct-Reference` | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.2-1B`                               | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.2-1B-Instruct`                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.2-3B`                               | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.2-3B-Instruct`                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.3-70B-Instruct-Reference`           | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.3-70B-32k-Instruct-Reference`       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-3.3-70B-131k-Instruct-Reference`      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `meta-llama/Llama-4-Scout-17B-16E`                      | `k_proj`, `o_proj`, `q_proj`, `v_proj`, `shared_expert.gate_proj`, `shared_expert.up_proj`, `shared_expert.down_proj`, `feed_forward.gate_proj`, `feed_forward.up_proj`, `feed_forward.down_proj` |
| `meta-llama/Llama-4-Scout-17B-16E-Instruct`             | `k_proj`, `o_proj`, `q_proj`, `v_proj`, `shared_expert.gate_proj`, `shared_expert.up_proj`, `shared_expert.down_proj`, `feed_forward.gate_proj`, `feed_forward.up_proj`, `feed_forward.down_proj` |
| `meta-llama/Llama-4-Maverick-17B-128E`                  | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `meta-llama/Llama-4-Maverick-17B-128E-Instruct`         | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `mistralai/Mistral-7B-v0.1`                             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `mistralai/Mistral-7B-Instruct-v0.2`                    | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `mistralai/Mixtral-8x7B-v0.1`                           | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `mistralai/Mixtral-8x7B-Instruct-v0.1`                  | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen2-1.5B`                                       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2-1.5B-Instruct`                              | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2-7B`                                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2-7B-Instruct`                                | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2-72B`                                        | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2-72B-Instruct`                               | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-1.5B`                                     | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-1.5B-Instruct`                            | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-3B`                                       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-3B-Instruct`                              | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-7B`                                       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-7B-Instruct`                              | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-14B`                                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-14B-Instruct`                             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-32B`                                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-32B-Instruct`                             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-72B`                                      | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen2.5-72B-Instruct`                             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-0.6B-Base`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-0.6B`                                       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-1.7B-Base`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-1.7B`                                       | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-4B-Base`                                    | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-4B`                                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-8B-Base`                                    | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-8B`                                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-14B-Base`                                   | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-14B`                                        | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-32B`                                        | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-30B-A3B-Base`                               | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-30B-A3B`                                    | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-30B-A3B-Instruct-2507`                      | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-235B-A22B`                                  | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-235B-A22B-Instruct-2507`                    | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-Coder-30B-A3B-Instruct`                     | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-Coder-480B-A35B-Instruct`                   | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-Next-80B-A3B-Instruct`                      | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-Next-80B-A3B-Thinking`                      | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `google/gemma-3-270m`                                   | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-270m-it`                                | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-1b-it`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-1b-pt`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-4b-it`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-4b-pt`                                  | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-12b-it`                                 | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-12b-pt`                                 | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-27b-it`                                 | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-27b-pt`                                 | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B`             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-R1-Distill-Qwen-14B`              | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-R1-Distill-Llama-70B`             | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-R1-Distill-Llama-70B-32k`         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-R1-Distill-Llama-70B-131k`        | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `deepseek-ai/DeepSeek-V3`                               | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-R1`                               | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-V3-Base`                          | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-V3-0324`                          | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-R1-0528`                          | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-V3.1-Base`                        | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `deepseek-ai/DeepSeek-V3.1`                             | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `moonshotai/Kimi-K2-Instruct`                           | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `moonshotai/Kimi-K2-Thinking`                           | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `moonshotai/Kimi-K2-Base`                               | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `moonshotai/Kimi-K2-Instruct-0905`                      | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `moonshotai/Kimi-K2.5`                                  | `q_a_proj`, `q_b_proj`, `kv_a_proj_with_mqa`, `kv_b_proj`, `mlp.gate_proj`, `mlp.up_proj`, `mlp.down_proj`                                                                                        |
| `openai/gpt-oss-20b`                                    | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `openai/gpt-oss-120b`                                   | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `zai-org/GLM-4.6`                                       | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `zai-org/GLM-4.7`                                       | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |

## Multimodal Models

| Model                                               | Default Target Modules                                                                                                                                                                            |
| --------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `meta-llama/Llama-4-Scout-17B-16E-Instruct-VLM`     | `k_proj`, `o_proj`, `q_proj`, `v_proj`, `shared_expert.gate_proj`, `shared_expert.up_proj`, `shared_expert.down_proj`, `feed_forward.gate_proj`, `feed_forward.up_proj`, `feed_forward.down_proj` |
| `meta-llama/Llama-4-Maverick-17B-128E-Instruct-VLM` | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-VL-8B-Instruct`                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-VL-32B-Instruct`                        | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `Qwen/Qwen3-VL-30B-A3B-Instruct`                    | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3-VL-235B-A22B-Instruct`                  | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3.5-35B-A3B`                              | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3.5-35B-A3B-Base`                         | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3.5-122B-A10B`                            | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `Qwen/Qwen3.5-397B-A17B`                            | `k_proj`, `o_proj`, `q_proj`, `v_proj`                                                                                                                                                            |
| `google/gemma-3-4b-it-VLM`                          | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-12b-it-VLM`                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
| `google/gemma-3-27b-it-VLM`                         | `k_proj`, `up_proj`, `o_proj`, `q_proj`, `down_proj`, `v_proj`, `gate_proj`                                                                                                                       |
