NVIDIA 免费开放 GLM-4.7 和 MiniMax-M2.1 模型 API

tm1uGb

NVIDIA NIM APIs 最近悄悄开放了两个最新的国产大模型:GLM-4.7MiniMax-M2.1

虽然这两个模型暂时没有在 NVIDIA Build 官方模型广场页面列出,但实测已经可以正常使用了。如果你有 NVIDIA API Key,现在就可以免费体验。

模型信息

模型 模型名称 速度(实测)
GLM-4.7 z-ai/glm4.7 ~25 tokens/s
MiniMax-M2.1 minimaxai/minimax-m2.1 ~150 tokens/s

API 地址https://integrate.api.nvidia.com/v1

因为才刚开始免费提供这些最新模型,资源紧张,速度可能会有波动。

调用示例

cURL 请求

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
curl --request POST \
--url "https://integrate.api.nvidia.com/v1/chat/completions" \
--header "Authorization: Bearer $NVIDIA_API_KEY" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
--data '{
"model": "minimaxai/minimax-m2.1",
"messages": [
{
"role": "user",
"content": "你好,请介绍一下自己"
}
],
"temperature": 0.6,
"top_p": 0.7,
"max_tokens": 4096,
"stream": false
}'

model 改为 z-ai/glm4.7 即可调用 GLM-4.7 模型。

Python 调用(OpenAI SDK 兼容)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from openai import OpenAI

client = OpenAI(
base_url="https://integrate.api.nvidia.com/v1",
api_key="你的NVIDIA_API_KEY"
)

response = client.chat.completions.create(
model="z-ai/glm4.7", # 或 minimaxai/minimax-m2.1
messages=[
{"role": "user", "content": "用 Python 写一个快速排序"}
],
temperature=0.6,
max_tokens=4096
)

print(response.choices[0].message.content)

使用体验

  • GLM-4.7:在日常 Coding 场景下表现很强,能力不输 Claude,值得一试
  • MiniMax-M2.1:速度快(150 tokens/s),适合需要快速响应的场景

获取 API Key

  1. 访问 NVIDIA Build
  2. 注册/登录 NVIDIA 账号
  3. 在任意模型页面点击 “Get API Key” 获取

总结

NVIDIA NIM 作为一个模型聚合平台,持续在引入新模型。这次 GLM-4.7 和 MiniMax-M2.1 的免费开放,为开发者提供了更多选择。特别是 GLM-4.7 的 Coding 能力,非常适合日常开发辅助。

赶紧去试试吧!