togethercomputer/llama-2-7b-chat | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-8B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-8B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3-70B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-131k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-8B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-32k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-32k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-131k-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Meta-Llama-3.1-70B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-1B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-1B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-3B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.2-3B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-32k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-3.3-70B-131k-Instruct-Reference | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
meta-llama/Llama-4-Scout-17B-16E | k_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj |
meta-llama/Llama-4-Scout-17B-16E-Instruct | k_proj, o_proj, q_proj, v_proj, shared_expert.gate_proj, shared_expert.up_proj, shared_expert.down_proj, feed_forward.gate_proj, feed_forward.up_proj, feed_forward.down_proj |
meta-llama/Llama-4-Maverick-17B-128E | k_proj, o_proj, q_proj, v_proj |
meta-llama/Llama-4-Maverick-17B-128E-Instruct | k_proj, o_proj, q_proj, v_proj |
mistralai/Mistral-7B-v0.1 | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
mistralai/Mistral-7B-Instruct-v0.2 | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
mistralai/Mixtral-8x7B-v0.1 | k_proj, o_proj, q_proj, v_proj |
mistralai/Mixtral-8x7B-Instruct-v0.1 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen2-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-1.5B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-7B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-72B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2-72B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-1.5B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-3B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-3B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-7B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-14B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-32B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-32B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-72B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen2.5-72B-Instruct | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-0.6B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-0.6B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-1.7B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-1.7B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-4B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-4B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-8B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-8B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-14B-Base | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-32B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
Qwen/Qwen3-30B-A3B-Base | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-30B-A3B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-30B-A3B-Instruct-2507 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-235B-A22B | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-235B-A22B-Instruct-2507 | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Coder-30B-A3B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Coder-480B-A35B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Next-80B-A3B-Instruct | k_proj, o_proj, q_proj, v_proj |
Qwen/Qwen3-Next-80B-A3B-Thinking | k_proj, o_proj, q_proj, v_proj |
google/gemma-3-270m | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-270m-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-1b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-1b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-4b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-4b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-12b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-12b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-27b-it | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
google/gemma-3-27b-pt | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-32k | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B-131k | k_proj, up_proj, o_proj, q_proj, down_proj, v_proj, gate_proj |
deepseek-ai/DeepSeek-V3 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-R1 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3-0324 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-R1-0528 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3.1-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
deepseek-ai/DeepSeek-V3.1 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Instruct | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Thinking | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Base | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2-Instruct-0905 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
moonshotai/Kimi-K2.5 | q_a_proj, q_b_proj, kv_a_proj_with_mqa, kv_b_proj, mlp.gate_proj, mlp.up_proj, mlp.down_proj |
openai/gpt-oss-20b | k_proj, o_proj, q_proj, v_proj |
openai/gpt-oss-120b | k_proj, o_proj, q_proj, v_proj |
zai-org/GLM-4.6 | k_proj, o_proj, q_proj, v_proj |
zai-org/GLM-4.7 | k_proj, o_proj, q_proj, v_proj |