
这个项目是在 Apple M4 Mac mini 16GB 上,用 MLX 从随机初始化开始训练一个 TinyStories 风格的小型 GPT 模型。它不是调用 API,也不是微调现成模型,而是把数据准备、tokenizer、模型结构、训练循环、checkpoint 和推理生成完整走了一遍。
这篇记录更偏工程复盘:重点不是训练出一个能聊天的模型,而是验证个人机器能不能完整跑通一次小规模 LLM 训练。
2026/6/6大约 6 分钟

这个项目是在 Apple M4 Mac mini 16GB 上,用 MLX 从随机初始化开始训练一个 TinyStories 风格的小型 GPT 模型。它不是调用 API,也不是微调现成模型,而是把数据准备、tokenizer、模型结构、训练循环、checkpoint 和推理生成完整走了一遍。
这篇记录更偏工程复盘:重点不是训练出一个能聊天的模型,而是验证个人机器能不能完整跑通一次小规模 LLM 训练。
这篇文章目前还没有补完整。后续如果继续写,建议重点说明风险边界、合法性和只读验证方式,避免把它写成滥用公开服务的教程。
硅基流动提供了 DeepSeek-R1 等模型的 API 服务,可以配合 Cherry Studio 这类客户端使用。本文记录账号注册、API Key 获取和客户端配置流程。
近日DeepSeek官网过于火爆,时常不回复

本地部署有更高的安全性
本地部署可以绕过一些官方的限制