前端也能搞模型？在浏览器里跑 Qwen2.5，我给公司省了 5 万 API 费用

公司每个月烧掉一辆比亚迪秦的 Token 费，财务把 9000 刀的账单甩在 CTO 脸上时，全办公室的空气都凝固了。后端在那纠结是换 GPT-4o mini 还是买 H100 自部署，我默默合上笔记本丢出一句话：“要不，让用户的显卡帮咱算？”

讲真，别一提到 AI 就只知道调 API。现在用户手里那帮 M3 芯片的 Mac、RTX 40 系的游戏本，算力空转着简直是暴殄天物。

我直接祭出了 WebGPU + WebLLM 这套组合拳。说白了，就是把 Qwen2.5 这种级别的模型做 4bit 量化，压缩到几 GB 往浏览器里一塞。

核心逻辑就这几行

别整那些虚的，直接看代码，简单到发指：

import { CreateMLCEngine } from "@mlc-ai/web-llm";

// 选最小且稳定的Qwen2.5,先保证能跑起来
const modelId = "Qwen2.5-0.5B-Instruct-q4f32_1-MLC";

// 初始化引擎（WebGPU）
const engine = await CreateMLCEngine(modelId, {
  initProgressCallback: (p) => {
    console.log("[MLC]", p.text);
  },
});

// 控制台对话
async function ask(text: string) {
  const res = await engine.chat.completions.create({
    messages: [{ role: "user", content: text }],
  });
  console.log("🤖", res.choices[0].message.content);
}

// 测试
await ask("写一个 React Button")
await ask("用CSS实现三角形")
await ask("用Python写一个冒泡排序")

在浏览器里跑Qwen2.5

爽点在哪？

后端组长本来还想看我笑话，结果他在 M1 Mac 上点开 Demo，模型跑起来的一瞬间他直接闭嘴了。

速度：生成速度稳在 15 tokens/s 左右。因为是本地计算，根本没有网络延迟，体感比调 GPT-4 接口快得多。
成本：除了第一次下载模型的 CDN 流量费，后面全是 0 成本。
隐私：数据根本不出浏览器。财务大姐现在敢把各种敏感报表直接喂给 AI 处理了，再也不怕数据泄露到 OpenAI 去。

丑话说在前头 (手动狗头)

这玩意儿也不是万能药，坑还是有的。
首先是首屏加载，几 GB 的模型文件，网速慢点确实能让人等到怀疑人生(建议做持久化缓存)。其次，那些还在用集显老古董的用户，跑起来电脑能直接变身暖手宝，风扇起飞那是常态。

但我个人的态度很明确：在企业内部工具、代码辅助或者离线文档助手这些场景下，Edge AI 绝对是降本增效的核武器。与其苦哈哈地优化 Prompt 抠那点 Token 钱，不如直接压榨用户的 GPU。

现在前端的边界早就不止是画页面了。WebGPU 这一波，直接把我们送进了原生性能的赛道。

大家觉得，这种“分布式白嫖用户算力”的方案，会是未来中小型 AI 应用的主流吗？还是说这只是极客们的自嗨？

核心逻辑就这几行

爽点在哪？

丑话说在前头 (手动狗头)

评论 0 条