简介
本课程是AI小智系统硬件+后端从零开发的系统教程,共计114集,是目前B站最全面的AI语音交互硬件开发资源。课程以"从零到完整产品"为目标,从Python基础、ESP32硬件开发到后端服务搭建,再到WebSocket通信、语音识别、语音合成、唤醒词等核心技术,手把手教学员打造完整的AI语音助手系统。
教程内容分为四大核心模块:基础准备篇(第00-05集)介绍AI小智系统整体架构、课程大纲、Python开发环境(PyCharm+Anaconda)、ESP32开发环境(ESP-IDF)、软硬件部分概览;Python后端篇(第06-21集、51-71集、106-110集、112集)涵盖Python基础(函数、变量、条件循环、面向对象)、DeepSeek调用、EdgeTTS语音合成、Opus编解码、FunASR语音识别、后端架构优化(工厂模式、配置文件、日志标准化、WebSocket服务器、多线程、队列、VAD、聊天上下文记录、物联网消息);ESP32硬件篇(第22-50集、71-105集、113-114集)包括ESP32工程创建、LED控制、C/C++语法、SD卡操作、麦克风录音、FreeRTOS任务、Opus编解码、PCM音频播放、代码重构(面向对象、工厂模式)、低功耗蓝牙(BLE)、WiFi配网、WebSocket客户端、音频重采样、唤醒词(原理、实现、自定义)、语音识别流程、性能优化、LED呼吸灯等;系统集成篇(第52-70集、111集)实现前后端WebSocket通信、音频数据传输、流式输出、队列管理、资源释放、意图识别等核心功能。
课程全程干货无废话,每个技术点均配有详细的代码讲解与实操演示,专为零基础学员设计。通过114集系统学习,你将全面掌握AI语音交互系统的完整开发流程,独立打造从硬件到软件的完整AI产品,真正实现"从零开发"到"产品落地"的技能飞跃。
各集标题与链接
【AI小智系统】63-小智后端-LLM改为流式输出
内容小结:将大语言模型输出改为流式模式,实现AI回答的实时逐字返回,提升用户体验与响应速度。
视频链接:点击观看
【AI小智系统】64-小智后端-LLM流式输出后提取完整句子
内容小结:在LLM流式输出中提取完整句子进行语音合成,平衡实时性与语音合成的自然度。
视频链接:点击观看
【AI小智系统】65-小智后端-优化代码
内容小结:后端代码整体优化,包括性能提升、内存管理、异常处理、代码简洁性等方面的改进。
视频链接:点击观看
【AI小智系统】66-小智后端-多线程实现聊天
内容小结:使用多线程技术实现并发聊天处理,支持多个客户端同时连接与独立对话会话。
视频链接:点击观看
【AI小智系统】67-小智后端-实现队列前优化代码
内容小结:引入消息队列前的代码优化准备,包括状态管理、异步处理机制的完善。
视频链接:点击观看
【AI小智系统】68-小智后端-用队列实现音频发送
内容小结:使用消息队列实现音频数据的有序发送,解耦生产与消费速率,提升系统稳定性。
视频链接:点击观看
【AI小智系统】69-小智后端-资源释放
内容小结:实现后端资源的正确释放机制,包括连接关闭、内存回收、线程终止等清理操作。
视频链接:点击观看
【AI小智系统】70-小智后端-文本聊天代码重构
内容小结:文本聊天功能代码重构,优化对话管理、上下文维护、响应生成的代码结构。
视频链接:点击观看
【AI小智系统】71-硬件程序-实现低功耗蓝牙(BLE)
内容小结:在ESP32上实现低功耗蓝牙(BLE)功能,用于设备配网、状态同步、低功耗数据传输。
视频链接:点击观看
【AI小智系统】72-硬件程序-wifi配网(蓝牙实现)
内容小结:通过蓝牙BLE实现WiFi配网功能,手机APP通过蓝牙发送WiFi凭证,设备自动连接网络。
视频链接:点击观看
【AI小智系统】73-硬件程序-重构wifi代码
内容小结:WiFi连接代码重构,优化连接流程、状态管理、错误重连机制,提升网络稳定性。
视频链接:点击观看
【AI小智系统】74-硬件程序-websocket简单实现
内容小结:在ESP32上实现WebSocket客户端,建立与后端的实时通信连接,支持双向数据传输。
视频链接:点击观看
【AI小智系统】75-硬件程序-参数设置(nvs区操作)
内容小结:实现ESP32的NVS(非易失性存储)区参数读写,保存WiFi配置、用户设置等持久化数据。
视频链接:点击观看
【AI小智系统】76-硬件程序-wifi代码重构(事件组)
内容小结:使用FreeRTOS事件组重构WiFi代码,优化异步事件处理与多任务协同机制。
视频链接:点击观看
【AI小智系统】77-硬件程序-音频播放使用队列
内容小结:音频播放功能引入队列机制,实现音频数据的缓冲与顺序播放,避免播放卡顿与数据丢失。
视频链接:点击观看
【AI小智系统】78-硬件程序-mp3格式转p3格式音频(ESP32播放mp3)
内容小结:实现MP3格式音频转换为ESP32可播放的格式,包括解码、重采样、编码等处理流程。
视频链接:点击观看
【AI小智系统】79-硬件程序-转换本地需要的语音p3文件(ESP32播放mp3)
内容小结:批量转换本地语音文件为ESP32兼容格式,建立本地语音库,支持离线语音播报。
视频链接:点击观看
【AI小智系统】80-硬件程序-播放本地opus音频文件(ESP32播放MP3最终实现)
内容小结:实现ESP32播放本地Opus格式音频文件,完成离线语音播放功能的最终集成。
视频链接:点击观看
【AI小智系统】81-硬件程序-ESP32播放MP3最终实现(优化)
内容小结:优化ESP32的MP3播放功能,提升播放流畅度、降低资源占用、完善错误处理。
视频链接:点击观看
【AI小智系统】82-硬件程序-进入蓝牙配网模式语音提示
内容小结:实现进入蓝牙配网模式时的语音提示功能,引导用户完成设备配网操作,提升用户体验。
视频链接:点击观看
【AI小智系统】83-硬件程序-websocket发送文本消息给后端
内容小结:实现ESP32通过WebSocket发送文本消息到后端,完成设备端的文本输入与命令传输。
视频链接:点击观看
【AI小智系统】84-硬件程序-websocket实现握手消息
内容小结:实现ESP32与后端的WebSocket握手消息交换,完成连接初始化与参数协商。
视频链接:点击观看
【AI小智系统】85-硬件程序-ESP32解析握手消息
内容小结:实现ESP32端对WebSocket握手消息的解析处理,提取服务端配置参数与状态信息。
视频链接:点击观看
【AI小智系统】86-硬件程序-ESP32同步握手消息的参数
内容小结:实现ESP32根据握手消息同步服务端参数,包括音频格式、采样率、通信协议等配置。
视频链接:点击观看
【AI小智系统】87-硬件程序-音频重采样原理
内容小结:讲解音频重采样的工作原理,包括采样率转换、插值算法、抗混叠滤波等理论基础。
视频链接:点击观看
【AI小智系统】88-硬件程序-音频重采样实现
内容小结:在ESP32上实现音频重采样功能,支持不同采样率音频的相互转换,确保播放兼容性。
视频链接:点击观看
【AI小智系统】89-硬件程序-实现发送音频开始和停止文本消息
内容小结:实现音频流控制消息的发送,包括录音开始、录音停止等状态通知,协调前后端音频传输。
视频链接:点击观看
【AI小智系统】90-硬件程序-实现发送音频消息
内容小结:实现ESP32实时录制音频并通过WebSocket发送到后端,建立完整的语音上行通道。
视频链接:点击观看
【AI小智系统】91-硬件程序-接收服务器音频消息并播放
内容小结:实现ESP32接收服务端下发的音频数据并实时播放,完成语音下行通道的闭环。
视频链接:点击观看
【AI小智系统】92-硬件程序-唤醒词工作原理
内容小结:讲解语音唤醒技术的工作原理,包括关键词识别、声学模型、阈值判断等核心技术。
视频链接:点击观看
【AI小智系统】93-硬件程序-唤醒词代码实现
内容小结:在ESP32上实现唤醒词识别功能,集成语音识别模型,完成"小智"等唤醒词的本地检测。
视频链接:点击观看
【AI小智系统】94-硬件程序-测试唤醒词代码
内容小结:对唤醒词功能进行全面测试,包括识别准确率、响应速度、抗噪性能等指标的验证。
视频链接:点击观看
【AI小智系统】95-硬件程序-自定义唤醒词
内容小结:实现自定义唤醒词功能,支持用户设置个性化的唤醒词,提升产品差异化体验。
视频链接:点击观看
【AI小智系统】96-硬件程序-将唤醒类型作为配置选项传入
内容小结:将唤醒词类型作为可配置参数,支持多种唤醒模式(如语音唤醒、按键唤醒)的灵活切换。
视频链接:点击观看
【AI小智系统】97-硬件程序-唤醒词加入语音处理流程
内容小结:将唤醒词检测集成到整体语音处理流程中,实现待机监听、唤醒激活、对话处理的完整状态机。
视频链接:点击观看
【AI小智系统】98-硬件程序-创建语音识别前期处理流程
内容小结:构建语音识别前的音频预处理流程,包括降噪、增益控制、端点检测等信号处理环节。
视频链接:点击观看
【AI小智系统】99-硬件程序-唤醒后打开服务器通道
内容小结:实现唤醒后自动打开与后端服务器的通信通道,建立对话会话,准备接收用户指令。
视频链接:点击观看
【AI小智系统】100-硬件程序-服务器的文本消息回调到应用层
内容小结:实现服务端文本消息的回调处理机制,将AI回答传递到应用层进行语音合成与播放。
视频链接:点击观看
【AI小智系统】101-硬件程序-创建主流程任务队列
内容小结:构建系统主流程的任务队列,管理唤醒、录音、识别、对话、播放等状态的切换与调度。
视频链接:点击观看
【AI小智系统】102-硬件程序-正式加入语音识别流程
内容小结:将语音识别流程正式集成到系统主循环中,实现完整的语音交互功能闭环。
视频链接:点击观看
【AI小智系统】103-语音流程总结及优化,意图识别
内容小结:总结语音处理全流程,进行性能优化,并引入意图识别功能,理解用户指令的深层目的(详细内容在笔记里)。
视频链接:点击观看
【AI小智系统】104-硬件程序-性能优化(内存溢出解决)
内容小结:解决ESP32内存溢出问题,通过内存池管理、动态分配优化、垃圾回收等策略提升系统稳定性。
视频链接:点击观看
【AI小智系统】105-硬件程序-语音处理流程优化
内容小结:进一步优化语音处理流程,降低延迟、提升响应速度、优化资源占用,改善用户体验。
视频链接:点击观看
【AI小智系统】106-小智后端-优化
内容小结:后端服务的进一步优化,包括性能调优、代码精简、架构完善等方面的改进。
视频链接:点击观看
【AI小智系统】107-小智后端-记录聊天上下文
内容小结:实现聊天上下文的记录与管理,支持多轮对话的连贯性,提升AI对话的自然度。
视频链接:点击观看
【AI小智系统】109-小智后端-加入VAD(代码实现)
内容小结:实现VAD(语音活动检测)功能,自动识别语音起始与结束,优化语音交互的响应时机(代码实现)。
视频链接:点击观看
【AI小智系统】110-小智后端-加入VAD(整体功能测试)
内容小结:对VAD功能进行整体测试验证,确保语音活动检测的准确性与实时性(整体功能测试)。
视频链接:点击观看
【AI小智系统】112-小智后端-后端发送物联网消息给ESP32
内容小结:实现后端向ESP32发送物联网控制消息,支持远程控制设备状态、查询传感器数据等功能。
视频链接:点击观看
【AI小智系统】113-硬件程序-LEDC控制LED(PWM)
内容小结:实现ESP32的LEDC(LED PWM控制器)功能,通过PWM调节LED亮度,实现灯光控制基础。
视频链接:点击观看
【AI小智系统】114-硬件程序-LED呼吸灯(LEDC Fade)
内容小结:实现LED呼吸灯效果,使用LEDC的渐变(Fade)功能,创建柔和的亮度变化动画,提升产品视觉体验。
视频链接:点击观看
以上是完整的114集AI小智系统硬件+后端从零开发教程Markdown格式整理,从Python基础、ESP32硬件开发到后端服务搭建,涵盖WebSocket通信、语音识别、语音合成、唤醒词、VAD等核心技术,手把手教你打造完整的AI语音交互系统。
回复