开源 v1.0.0

ESP32 设备
拥有 AI 语音能力

小智中转服务器是一款高性能 WebSocket 服务器,专为 ESP32 设备与 Coze AI 之间的实时语音交互而设计。支持万级并发、音频实时转换、智能会话管理等强大功能。

10,000+
并发连接
<50ms
响应延迟
16/24/48
kHz 采样率支持
100%
Go 语言编写

核心功能特性

专为物联网语音交互场景打造的完整解决方案

高性能架构

基于 Go 和 Gorilla WebSocket,支持万级并发连接,异步音频流处理,轻松应对大规模设备接入。

智能音频处理

支持 PCM/Opus 实时转换,多采样率自适应,VAD 语音检测,智能流量控制。

智能语音交互

集成 Coze API,支持语音识别、自然语言处理和语音合成,智能打断,会话恢复。

水平扩展

支持 Redis 分布式会话共享,可水平扩展多实例,配合负载均衡实现高可用部署。

安全防护

IP 限流、黑名单机制、JWT 认证、RBAC 权限控制,全方位保护服务安全。

监控管理

内置 Web 管理后台,实时监控设备状态、会话记录、统计报表,支持数据导出。

技术架构

现代化技术栈,构建稳定可靠的语音交互服务

Go 1.24

高性能运行时

WebSocket

实时双向通信

SQLite

轻量级数据库

Redis

会话共享缓存

Zap

结构化日志

Docker

容器化部署

快速开始

几分钟内即可启动你的语音交互服务

bash
# 1. 克隆项目
git clone https://github.com/yourusername/xiaozhi-server-go.git
cd xiaozhi-server-go

# 2. 配置环境变量
export COZE_API_TOKEN="your_api_token"
export COZE_BOT_ID="your_bot_id"

# 3. 启动服务
go run cmd/server/main.go

# 或使用 Docker
docker-compose up -d