LLM成本计算器

供应商	模型	上下文	输入/1k Tokens	输出/1k Tokens	每次调用	总计
国内模型
通义千问	qwen-max-1201		0.12	0.12	0.2400	24.00
通义千问	qwen-max-0403		0.04	0.12	0.1600	16.00
通义千问	qwen-max-longcontext		0.04	0.12	0.1600	16.00
通义千问	qwen-max		0.04	0.12	0.1600	16.00
通义千问	qwen-max-0428		0.04	0.12	0.1600	16.00
通义千问	qwen-max-0107		0.04	0.12	0.1600	16.00
通义千问	qwen-turbo		0.002	0.006	0.0080	0.80
通义千问	Qwen-Long		0.0005	0.002	0.0025	0.25
通义千问	qwen-plus		0.004	0.0012	0.0052	0.52
百度智能云	ERNIE 4.0		0.12	0.12	0.2400	24.00
百度智能云	ERNIE-3.5-8K-0205	8K	0.024	0.048	0.0720	7.20
百度智能云	ERNIE 3.5系列(不含8k-0205版本)		0.012	0.012	0.0240	2.40
百度智能云	ERNIE-Lite-8K-0922		0.008	0.008	0.0160	1.60
百度智能云	ERNIE-Character-8K	8K	0.004	0.008	0.0120	1.20
百度智能云	ERNIE Speed-AppBuilder		0.004	0.008	0.0120	1.20
百度智能云	ERNIE-Function-8K	8k	0.004	0.008	0.0120	1.20
百度智能云	ERNIE-Tiny-8k	8k	0.001	0.001	0.0020	0.20
百川智能	Baichuan2-Turbo-192k	192k	0.016	0.016	0.0320	3.20
百川智能	Baichuan-NPC-Turbo		0.015	0.015	0.0300	3.00
百川智能	Baichuan2-53B		0.01	0.01	0.0200	2.00
百川智能	Baichuan-NPC-Lite		0.0099	0.0099	0.0198	1.98
百川智能	Baichuan2-Turbo		0.008	0.008	0.0160	1.60
百川智能	Baichuan-Text-Embedding		0.0005	0.0005	0.0010	0.10
智谱AI	GLM-4-0520		0.1	0.1	0.2000	20.00
智谱AI	GLM-4		0.1	0.1	0.2000	20.00
智谱AI	GLM-4V		0.05	0.05	0.1000	10.00
智谱AI	GLM-4-Airx		0.01	0.01	0.0200	2.00
智谱AI	GLM-4-Air		0.001	0.001	0.0020	0.20
智谱AI	GLM-3-Turbo		0.001	0.001	0.0020	0.20
MiniMax开放平台	ChatCompletion V2 abab6		0.1	0.1	0.2000	20.00
MiniMax开放平台	ChatCompletion V2 abab6.5		0.03	0.03	0.0600	6.00
MiniMax开放平台	ChatCompletion V2 abab5.5		0.015	0.015	0.0300	3.00
MiniMax开放平台	ChatCompletion V2 abab6.5s		0.01	0.01	0.0200	2.00
MiniMax开放平台	ChatCompletion V2 abab6.5g		0.005	0.005	0.0100	1.00
MiniMax开放平台	ChatCompletion V2 abab5.5s		0.005	0.005	0.0100	1.00
腾讯云	混元-pro		0.03	0.1	0.1300	13.00
腾讯云	混元-standard		0.0045	0.005	0.0095	0.95
Moonshot AI	moonshot-v1-128k	128k	0.06	0.06	0.1200	12.00
Moonshot AI	Mistral-Medium		0.027	0.081	0.1080	10.80
Moonshot AI	moonshot-v1-32k	32k	0.024	0.024	0.0480	4.80
Moonshot AI	moonshot-v1-8k	8k	0.012	0.012	0.0240	2.40
火山引擎	Skylark2-pro-32k	32k	0.012	0.036	0.0480	4.80
火山引擎	Skylark2-pro-4k	4k	0.011	0.015	0.0260	2.60
火山引擎	Skylark2-pro-character-4k	4k	0.011	0.015	0.0260	2.60
火山引擎	Skylark2-pro-turbo-8k	8k	0.004	0.011	0.0150	1.50
火山引擎	Doubao-pro-128k	128k	0.005	0.009	0.0140	1.40
火山引擎	Skylark2-lite-8k	8k	0.004	0.004	0.0080	0.80
火山引擎	Doubao-pro-32k	32k	0.0008	0.002	0.0028	0.28
火山引擎	Doubao-pro-4k	4k	0.0008	0.002	0.0028	0.28
火山引擎	Doubao-lite-128k	128k	0.0008	0.001	0.0018	0.18
火山引擎	Doubao-lite-32k	32k	0.0003	0.0006	0.0009	0.09
火山引擎	Doubao-lite-4k	4k	0.0003	0.0006	0.0009	0.09
讯飞星火	星火大模型V3.5		0.033	0.033	0.0660	6.60
讯飞星火	星火大模型V3.0		0.03	0.03	0.0600	6.00
讯飞星火	星火大模型V1.5		0.015	0.015	0.0300	3.00
零一万物	yi-34b-chat-200k	200k	0.012	0.012	0.0240	2.40
零一万物	yi-vl-plus		0.006	0.006	0.0120	1.20
零一万物	yi-34b-chat-0205		0.0025	0.0025	0.0050	0.50
DeepSeek	DeepSeek-V2	32K	0.001	0.002	0.0030	0.30
Chat/Completion
OpenAI	gpt-4o-mini	128K	0.00015	0.0006	0.0007	0.07
OpenAI	gpt-4o	128K	0.005	0.015	0.0200	2.00
OpenAI	gpt-3.5-turbo		0.003	0.006	0.0090	0.90
OpenAI	gpt-3.5-turbo-0125	16K	0.0005	0.0015	0.0020	0.20
OpenAI	gpt-4-turbo	128K	0.01	0.03	0.0400	4.00
OpenAI	gpt-4	8K	0.03	0.06	0.0900	9.00
OpenAI	gpt-3.5-turbo-instruct	4K	0.0015	0.002	0.0035	0.35
OpenAI	gpt-4o-mini-2024-07-18	128K	0.00015	0.0006	0.0007	0.07
OpenAI	gpt-4-turbo-2024-04-09	128K	0.01	0.03	0.0400	4.00
OpenAI	gpt-4-32k	32K	0.06	0.12	0.1800	18.00
OpenAI	gpt-4-0125-preview	128K	0.01	0.03	0.0400	4.00
OpenAI	gpt-4-1106-preview	128K	0.01	0.03	0.0400	4.00
OpenAI	gpt-4-vision-preview	128K	0.01	0.03	0.0400	4.00
OpenAI	gpt-3.5-turbo-1106	4K	0.001	0.002	0.0030	0.30
OpenAI	gpt-3.5-turbo-0613	4K	0.0015	0.002	0.0035	0.35
OpenAI	gpt-3.5-turbo-16k-0613	4K	0.003	0.004	0.0070	0.70
OpenAI	gpt-3.5-turbo-0301	4K	0.0015	0.002	0.0035	0.35
OpenAI	davinci-002	4K	0.002	0.002	0.0040	0.40
OpenAI	babbage-002	4K	0.0004	0.0004	0.0008	0.08
Anthropic	claude-3-opus	200K	0.015	0.075	0.0900	9.00
Anthropic	claude-3-sonnet	200K	0.003	0.015	0.0180	1.80
Anthropic	claude-3-haiku	200K	0.00025	0.00125	0.0015	0.15
Anthropic	claude-2.1	200K	0.008	0.024	0.0320	3.20
Anthropic	claude-2.0	100K	0.008	0.024	0.0320	3.20
Anthropic	claude-instant-1.2	100K	0.0008	0.0024	0.0032	0.32
Deepinfra	llama-3-70b-instruct	8K	0.00059	0.00079	0.0014	0.14
Deepinfra	llama-3-8b-instruct	8K	0.0001	0.0001	0.0002	0.02
Google	gemini-pro	32K	0.00013	0.00038	0.0005	0.05
Google	gemini-1.5-pro	1M	0.007	0.021	0.0280	2.80
Google	gemini-flash-1.5	2.8M	0.000075	0.0003	0.0004	0.04
Deepinfra	gemma-7b-it	8K	0.0001	0.0001	0.0002	0.02
Mistral	mistral-large	32K	0.008	0.024	0.0320	3.20
Mistral	mistral-medium	32K	0.0027	0.081	0.0837	8.37
Mistral	mistral-small	32K	0.002	0.006	0.0080	0.80
Mistral	mixtral-8x7b	32K	0.0007	0.0007	0.0014	0.14
Mistral	mistral-7b	32K	0.00025	0.00025	0.0005	0.05
Cohere	command-r-plus	128K	0.003	0.015	0.0180	1.80
Cohere	command-r	4K	0.0005	0.0015	0.0020	0.20
Cohere	command	4K	0.0003	0.0006	0.0009	0.09
Perplexity	pplx-70b-online	4K	0.0001	0.0001	0.0002	0.02
Perplexity	pplx-7b-online	4K	0.0002	0.0002	0.0004	0.04
OpenChat	openchat-7b	8K	0.00013	0.00013	0.0003	0.03
Groq	llama-3-70b	8K	0.00059	0.00079	0.0014	0.14
Groq	llama-3-8b	8K	0.00005	0.0001	0.0002	0.02
Groq	llama-2-70b	4K	0.00064	0.0008	0.0014	0.14
Groq	llama-2-7b	2K	0.0001	0.0001	0.0002	0.02
Groq	mixtral-8x7b	32K	0.00027	0.00027	0.0005	0.05
Groq	gemma-7b	8K	0.0001	0.0001	0.0002	0.02
Cloudflare	llama-2-7b-chat-fp16	3K	0.00056	0.00066	0.0012	0.12
Cloudflare	llama-2-7b-chat-int8	2K	0.00016	0.00024	0.0004	0.04
Cloudflare	mistral-7b-instruct	32K	0.00011	0.00019	0.0003	0.03
Lynn	llama-3-soliloquy-8b	24K	0.0001	0.0001	0.0002	0.02
Replicate	meta-llama-3-70b-instruct	8K	0.00065	0.00275	0.0034	0.34
Replicate	meta-llama-3-8b-instruct	8K	0.00005	0.00025	0.0003	0.03
Replicate	llama-2-13b	4K	0.0001	0.0005	0.0006	0.06
Replicate	llama-2-7b	4K	0.00005	0.00025	0.0003	0.03
Replicate	llama-2-70b	4K	0.00065	0.00275	0.0034	0.34
Replicate	mistral-7b-v0.1	32K	0.00005	0.00025	0.0003	0.03
Replicate	mistral-7b-instruct-v0.2	32K	0.00005	0.00025	0.0003	0.03
Replicate	mixtral-8x7b-instruct-v0.1	32K	0.0003	0.001	0.0013	0.13
AWS	jurassic-2-ultra	32K	0.0188	0.0188	0.0376	3.76
AWS	jurassic-2-mid	32K	0.0125	0.0125	0.0250	2.50
AWS	titan-text-lite	32K	0.0003	0.0004	0.0007	0.07
AWS	titan-text-express	32K	0.0008	0.0016	0.0024	0.24
AWS	claude-instant	32K	0.0008	0.0024	0.0032	0.32
AWS	claude-3-sonnet	32K	0.003	0.015	0.0180	1.80
AWS	claude-3-haiku	32K	0.00025	0.00125	0.0015	0.15
AWS	command	32K	0.0015	0.002	0.0035	0.35
AWS	command-light	32K	0.0003	0.0006	0.0009	0.09
AWS	llama-2-chat-13b	32K	0.00075	0.001	0.0018	0.18
AWS	llama-2-chat-70b	32K	0.00195	0.00256	0.0045	0.45
AWS	mistral-7b	32K	0.00015	0.0002	0.0003	0.03
AWS	mistral-8x7b	32K	0.00045	0.0007	0.0011	0.11
Fine/tuning
OpenAI	GPT-3.5 Turbo	4K	0.012	0.016	0.0280	2.80
Google	PaLM 2	8K	0.002	0.002	0.0040	0.40
Embedding
Titan	Titan Embeddings		0.0001		0.0001	0.01
OpenAI	Ada v2		0.0001		0.0001	0.01
Google	PaLM 2		0.0004		0.0004	0.04
Cohere	Embed		0.0004		0.0004	0.04

供应商

模型

上下文

输入/1k Tokens

输出/1k Tokens

每次调用

总计

国内模型

通义千问

qwen-max-1201

0.12

0.2400

24.00

通义千问

qwen-max-0403

0.04

0.12

0.1600

16.00

通义千问

qwen-max-longcontext

0.04

0.12

0.1600

16.00

通义千问

qwen-max

0.04

0.12

0.1600

16.00

通义千问

qwen-max-0428

0.04

0.12

0.1600

16.00

通义千问

qwen-max-0107

0.04

0.12

0.1600

16.00

通义千问

qwen-turbo

0.002

0.006

0.0080

0.80

通义千问

Qwen-Long

0.0005

0.002

0.0025

0.25

通义千问

qwen-plus

0.004

0.0012

0.0052

0.52

百度智能云

ERNIE 4.0

0.12

0.2400

24.00

百度智能云

ERNIE-3.5-8K-0205

0.024

0.048

0.0720

7.20

百度智能云

ERNIE 3.5系列(不含8k-0205版本)

0.012

0.0240

2.40

百度智能云

ERNIE-Lite-8K-0922

0.008

0.0160

1.60

百度智能云

ERNIE-Character-8K

0.004

0.008

0.0120

1.20

百度智能云

ERNIE Speed-AppBuilder

0.004

0.008

0.0120

1.20

百度智能云

ERNIE-Function-8K

0.004

0.008

0.0120

1.20

百度智能云

ERNIE-Tiny-8k

0.001

0.0020

0.20

百川智能

Baichuan2-Turbo-192k

192k

0.016

0.0320

3.20

百川智能

Baichuan-NPC-Turbo

0.015

0.0300

3.00

百川智能

Baichuan2-53B

0.01

0.0200

2.00

百川智能

Baichuan-NPC-Lite

0.0099

0.0198

1.98

百川智能

Baichuan2-Turbo

0.008

0.0160

1.60

百川智能

Baichuan-Text-Embedding

0.0005

0.0010

0.10

智谱AI

GLM-4-0520

0.1

0.2000

20.00

智谱AI

GLM-4

0.1

0.2000

20.00

智谱AI

GLM-4V

0.05

0.1000

10.00

智谱AI

GLM-4-Airx

0.01

0.0200

2.00

智谱AI

GLM-4-Air

0.001

0.0020

0.20

智谱AI

GLM-3-Turbo

0.001

0.0020

0.20

MiniMax开放平台

ChatCompletion V2 abab6

0.1

0.2000

20.00

MiniMax开放平台

ChatCompletion V2 abab6.5

0.03

0.0600

6.00

MiniMax开放平台

ChatCompletion V2 abab5.5

0.015

0.0300

3.00

MiniMax开放平台

ChatCompletion V2 abab6.5s

0.01

0.0200

2.00

MiniMax开放平台

ChatCompletion V2 abab6.5g

0.005

0.0100

1.00

MiniMax开放平台

ChatCompletion V2 abab5.5s

0.005

0.0100

1.00

腾讯云

混元-pro

0.03

0.1

0.1300

13.00

腾讯云

混元-standard

0.0045

0.005

0.0095

0.95

Moonshot AI

moonshot-v1-128k

128k

0.06

0.1200

12.00

Moonshot AI

Mistral-Medium

0.027

0.081

0.1080

10.80

Moonshot AI

moonshot-v1-32k

32k

0.024

0.0480

4.80

Moonshot AI

moonshot-v1-8k

0.012

0.0240

2.40

火山引擎

Skylark2-pro-32k

32k

0.012

0.036

0.0480

4.80

火山引擎

Skylark2-pro-4k

0.011

0.015

0.0260

2.60

火山引擎

Skylark2-pro-character-4k

0.011

0.015

0.0260

2.60

火山引擎

Skylark2-pro-turbo-8k

0.004

0.011

0.0150

1.50

火山引擎

Doubao-pro-128k

128k

0.005

0.009

0.0140

1.40

火山引擎

Skylark2-lite-8k

0.004

0.0080

0.80

火山引擎

Doubao-pro-32k

32k

0.0008

0.002

0.0028

0.28

火山引擎

Doubao-pro-4k

0.0008

0.002

0.0028

0.28

火山引擎

Doubao-lite-128k

128k

0.0008

0.001

0.0018

0.18

火山引擎

Doubao-lite-32k

32k

0.0003

0.0006

0.0009

0.09

火山引擎

Doubao-lite-4k

0.0003

0.0006

0.0009

0.09

讯飞星火

星火大模型V3.5

0.033

0.0660

6.60

讯飞星火

星火大模型V3.0

0.03

0.0600

6.00

讯飞星火

星火大模型V1.5

0.015

0.0300

3.00

零一万物

yi-34b-chat-200k

200k

0.012

0.0240

2.40

零一万物

yi-vl-plus

0.006

0.0120

1.20

零一万物

yi-34b-chat-0205

0.0025

0.0050

0.50

DeepSeek

DeepSeek-V2

32K

0.001

0.002

0.0030

0.30

Chat/Completion

OpenAI

gpt-4o-mini

128K

0.00015

0.0006

0.0007

0.07

OpenAI

gpt-4o

128K

0.005

0.015

0.0200

2.00

OpenAI

gpt-3.5-turbo

0.003

0.006

0.0090

0.90

OpenAI

gpt-3.5-turbo-0125

16K

0.0005

0.0015

0.0020

0.20

OpenAI

gpt-4-turbo

128K

0.01

0.03

0.0400

4.00

OpenAI

gpt-4

0.03

0.06

0.0900

9.00

OpenAI

gpt-3.5-turbo-instruct

0.0015

0.002

0.0035

0.35

OpenAI

gpt-4o-mini-2024-07-18

128K

0.00015

0.0006

0.0007

0.07

OpenAI

gpt-4-turbo-2024-04-09

128K

0.01

0.03

0.0400

4.00

OpenAI

gpt-4-32k

32K

0.06

0.12

0.1800

18.00

OpenAI

gpt-4-0125-preview

128K

0.01

0.03

0.0400

4.00

OpenAI

gpt-4-1106-preview

128K

0.01

0.03

0.0400

4.00

OpenAI

gpt-4-vision-preview

128K

0.01

0.03

0.0400

4.00

OpenAI

gpt-3.5-turbo-1106

0.001

0.002

0.0030

0.30

OpenAI

gpt-3.5-turbo-0613

0.0015

0.002

0.0035

0.35

OpenAI

gpt-3.5-turbo-16k-0613

0.003

0.004

0.0070

0.70

OpenAI

gpt-3.5-turbo-0301

0.0015

0.002

0.0035

0.35

OpenAI

davinci-002

0.002

0.0040

0.40

OpenAI

babbage-002

0.0004

0.0008

0.08

Anthropic

claude-3-opus

200K

0.015

0.075

0.0900

9.00

Anthropic

claude-3-sonnet

200K

0.003

0.015

0.0180

1.80

Anthropic

claude-3-haiku

200K

0.00025

0.00125

0.0015

0.15

Anthropic

claude-2.1

200K

0.008

0.024

0.0320

3.20

Anthropic

claude-2.0

100K

0.008

0.024

0.0320

3.20

Anthropic

claude-instant-1.2

100K

0.0008

0.0024

0.0032

0.32

Deepinfra

llama-3-70b-instruct

0.00059

0.00079

0.0014

0.14

Deepinfra

llama-3-8b-instruct

0.0001

0.0002

0.02

Google

gemini-pro

32K

0.00013

0.00038

0.0005

0.05

Google

gemini-1.5-pro

0.007

0.021

0.0280

2.80

Google

gemini-flash-1.5

2.8M

0.000075

0.0003

0.0004

0.04

Deepinfra

gemma-7b-it

0.0001

0.0002

0.02

Mistral

mistral-large

32K

0.008

0.024

0.0320

3.20

Mistral

mistral-medium

32K

0.0027

0.081

0.0837

8.37

Mistral

mistral-small

32K

0.002

0.006

0.0080

0.80

Mistral

mixtral-8x7b

32K

0.0007

0.0014

0.14

Mistral

mistral-7b

32K

0.00025

0.0005

0.05

Cohere

command-r-plus

128K

0.003

0.015

0.0180

1.80

Cohere

command-r

0.0005

0.0015

0.0020

0.20

Cohere

command

0.0003

0.0006

0.0009

0.09

Perplexity

pplx-70b-online

0.0001

0.0002

0.02

Perplexity

pplx-7b-online

0.0002

0.0004

0.04

OpenChat

openchat-7b

0.00013

0.0003

0.03

Groq

llama-3-70b

0.00059

0.00079

0.0014

0.14

Groq

llama-3-8b

0.00005

0.0001

0.0002

0.02

Groq

llama-2-70b

0.00064

0.0008

0.0014

0.14

Groq

llama-2-7b

0.0001

0.0002

0.02

Groq

mixtral-8x7b

32K

0.00027

0.0005

0.05

Groq

gemma-7b

0.0001

0.0002

0.02

Cloudflare

llama-2-7b-chat-fp16

0.00056

0.00066

0.0012

0.12

Cloudflare

llama-2-7b-chat-int8

0.00016

0.00024

0.0004

0.04

Cloudflare

mistral-7b-instruct

32K

0.00011

0.00019

0.0003

0.03

Lynn

llama-3-soliloquy-8b

24K

0.0001

0.0002

0.02

Replicate

meta-llama-3-70b-instruct

0.00065

0.00275

0.0034

0.34

Replicate

meta-llama-3-8b-instruct

0.00005

0.00025

0.0003

0.03

Replicate

llama-2-13b

0.0001

0.0005

0.0006

0.06

Replicate

llama-2-7b

0.00005

0.00025

0.0003

0.03

Replicate

llama-2-70b

0.00065

0.00275

0.0034

0.34

Replicate

mistral-7b-v0.1

32K

0.00005

0.00025

0.0003

0.03

Replicate

mistral-7b-instruct-v0.2

32K

0.00005

0.00025

0.0003

0.03

Replicate

mixtral-8x7b-instruct-v0.1

32K

0.0003

0.001

0.0013

0.13

AWS

jurassic-2-ultra

32K

0.0188

0.0376

3.76

AWS

jurassic-2-mid

32K

0.0125

0.0250

2.50

AWS

titan-text-lite

32K

0.0003

0.0004

0.0007

0.07

AWS

titan-text-express

32K

0.0008

0.0016

0.0024

0.24

AWS

claude-instant

32K

0.0008

0.0024

0.0032

0.32

AWS

claude-3-sonnet

32K

0.003

0.015

0.0180

1.80

AWS

claude-3-haiku

32K

0.00025

0.00125

0.0015

0.15

AWS

command

32K

0.0015

0.002

0.0035

0.35

AWS

command-light

32K

0.0003

0.0006

0.0009

0.09

AWS

llama-2-chat-13b

32K

0.00075

0.001

0.0018

0.18

AWS

llama-2-chat-70b

32K

0.00195

0.00256

0.0045

0.45

AWS

mistral-7b

32K

0.00015

0.0002

0.0003

0.03

AWS

mistral-8x7b

32K

0.00045

0.0007

0.0011

0.11

Fine/tuning

OpenAI

GPT-3.5 Turbo

0.012

0.016

0.0280

2.80

Google

PaLM 2

0.002

0.0040

0.40

Embedding

Titan

Titan Embeddings

0.0001

0.01

OpenAI

Ada v2

0.0001

0.01

Google

PaLM 2

0.0004

0.04

Cohere

Embed

0.0004

0.04

AI LLM模型定价

OpenAI、Anthropic、Google、Cohere、Mistral和Meta提供各种各样的模型，每个模型都针对特定任务和能力进行了定制。了解定价结构对于希望将这些模型整合到其应用程序中的企业和开发人员至关重要。这些模型针对特定任务和能力提供了不同的解决方案。以下是它们如何构建定价结构的详细介绍。

Tokens：定价的基本单位

LLM的定价通常围绕着"Tokens"的概念展开。Tokens可以被视为一个词的一部分。举个例子，1000个Tokens大约相当于750个words。例如，句子"This paragraph is 5 tokens"本身就是5个Tokens长。

一个有用的指导原则是，在处理Tokens时，对于典型的英文文本，一个Tokens通常相当于大约四个characters。这意味着一个Tokens代表大约四分之三个word。非英语语言如日语可能会显著改变这个计算。

上下文长度

对于大型语言模型（LLMs），特别是由OpenAI开发的模型，"上下文长度"是一个常见的术语。这是一个重要的概念，因为它直接影响模型的性能、能力和因此而产生的成本。以下是对上下文长度的深入探讨，以及为什么它很重要。

什么是上下文长度？

上下文长度指的是模型在一次处理请求时可以考虑或"记住"的信息量或Tokens数量。这实质上是模型在处理请求时的"工作记忆"。例如，如果一个模型的上下文长度为8000（8K）个Tokens，那么它可以一次考虑来自输入的最多8000个Tokens，并输出。

为什么上下文长度很重要？

任务复杂度：更长的上下文长度使模型能够处理需要理解和处理更大信息块的更复杂任务。例如，总结一篇长文章或回答关于详细技术文档的问题可能需要一个具有更长上下文长度的模型。
对话连贯性：在聊天机器人应用中，更长的上下文确保模型记住了更多先前的对话，从而产生更连贯和与上下文相关的回复。
成本影响：具有更长上下文长度的模型通常以更高的价格销售，因为它们消耗了更多的计算资源。

语言模型：聊天、文本生成和推理

OpenAI等公司提供多个语言模型，每个模型具有不同的能力和价格。这些模型的定价通常是按照每1000个Tokens计算的。

OpenAI GPT-4o：GPT-4o（Omni）是OpenAI的最先进的多模态模型，比GPT-4 Turbo快2倍，便宜50%，具有更强的视觉能力。该模型具有128K上下文，并且截止到2023年10月的知识。它将很快支持音频输入以及文本、图像和音频输出。
OpenAI GPT-4：以其广泛的通用知识和领域专业知识而闻名，GPT-4善于用自然语言遵循复杂的指令并精确解决具有挑战性的问题。它比其他模型更慢、更昂贵。最近发布的GPT-4 Turbo（gpt-4-turbo）价格比以前便宜3倍，并且支持惊人的128K上下文限制！也可通过微软的Azure OpenAI服务使用。
OpenAI GPT-3.5 Turbo：该模型针对对话进行了优化，非常适合聊天机器人应用和对话界面。它也是生成文本的最快、最经济的模型。也可通过微软的Azure OpenAI服务使用。
Anthropic的Claude 3：Claude 3包括三个先进模型，按功能升级的顺序分别为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个后续模型都提供越来越强大的性能，使用户能够选择智能、速度和成本的最佳平衡，以满足其特定应用的需求。Opus在性能上可与GPT-4相媲美，而Haiku是最具成本效益的模型，而且在许多基准测试中仍然超过了GPT-3.5 Turbo。Claude 3具有庞大的200K上下文窗口，并可通过Anthropic的API和claud.ai使用。
Llama 3：Llama 3是Meta（Facebook的母公司）开发的最新开源大型语言模型（LLM）。它是Meta对OpenAI的GPT-4系列和Google的AI模型（如Gemini）的回应。然而，它通过为研究和商业活动提供免费访问来区别于其他模型。在许多任务中，包括文本生成、摘要和问答等，Llama 3一般与GPT-3.5 Turbo性能相似，是一个功能强大的模型。它还在许多基准测试中接近于GPT-4的水平，成本却大大降低。唯一的缺点是Llama 3主要是一个英语模型。
Gemini：Gemini是由Google开发的最新的多模态大型语言模型系列，是PaLM 2的继任者。Gemini Ultra、Gemini Pro和Gemini Nano分别是1.0和1.5版本的组成部分，它于2023年12月6日宣布推出。Gemini Ultra定位为OpenAI的GPT-4的首个竞争对手，而Gemini Pro在性能上更接近于GPT-3.5。Gemini Pro 1.5是最新公开可用的版本，具有行业领先的1M上下文窗口，支持视频、音频、图像和文本的多模态。Gemini模型可通过Google的Vertex AI平台使用。
PaLM 2：PaLM 2是Google的一款较老的语言模型，具有增强的多语言、推理和编码能力。它在来自100多种语言的多语言文本上进行训练，擅长理解和翻译成语和诗歌等复杂文本形式。其数据集富含科学论文和网络内容，使其具有优越的逻辑、推理和数学能力。此外，它在编码方面的熟练程度可以从其在大量源代码数据集上的训练中看出，使其在从Python到Fortran的各种编程语言中都表现出色。
Mistral：Mistral AI是一家新兴的激动人心的初创公司，发布了一些非常快速和便宜的小型开源模型。Mistral 7B和Mixtral 8x7B（Mixtral）是他们最受欢迎的两个开放模型。Mixtral击败了Llama 2，在许多基准测试中与GPT-3.5 Turbo性能相当，并且价格是后者的2.5倍。Mistral Large是一个私有模型，其性能接近GPT-4在英语、西班牙语、法语、德语和意大利语的推理任务方面的水平。

用法成本：购买和使用Tokens

对于企业和开发人员来说，理解购买和使用Tokens的成本是至关重要的。这些成本取决于模型的选择、使用的Tokens量和上下文长度。以下是一些通用指导原则：

购买Tokens： 大多数公司提供多种购买Tokens的选项，通常以不同的价格和折扣提供。购买的Tokens可以在特定时间段内使用，并根据使用情况进行消耗。一次性购买通常具有更高的折扣，并且适用于长期项目。
使用Tokens： 一旦购买了Tokens，用户可以根据需要使用它们。每次使用Tokens时，都会消耗相应数量的Tokens，具体取决于模型的上下文长度和使用的Tokens量。

了解这些因素将有助于企业和开发人员做出明智的决策，以满足其项目需求并优化成本效益。通过选择适合其特定需求的模型、了解Tokens的购买和使用成本，他们可以充分利用这些强大的语言模型，从而实现其业务和项目目标。

ChatGPT 和其他 LLM API 定价计算器

AI LLM模型定价

Tokens：定价的基本单位

上下文长度

什么是上下文长度？

为什么上下文长度很重要？

语言模型：聊天、文本生成和推理

用法成本：购买和使用Tokens