| 模型 | hidden_size | num_heads | size_per_head | max_seqlen | vocab_size | num_layers |
|---|---|---|---|---|---|---|
| bert | 768 | 12 | 64 | 512 | 30522 | 12/24 |
| chatGLM-6B | 4096 | 32 | 128 | 2048 | 130528 | 28 |
| chatGLM2-6B | 4096 | 32 | 128 | 32768 | 65024 | 28 |
| LLAMA-7B | 4096 | 32 | 128 | 2048 | 32 | |
| LLAMA-13B | 5120 | 40 | 128 | 40 | ||
| LLAMA-33B | 6656 | 52 | 128 | 60 | ||
| LLAMA-65B | 8192 | 64 | 128 | 80 | ||
| GPT-3 175B | 12288 | 96 | 128 | 2048 |