从一段歌词到完整歌曲 — MusIDE 用 AI 处理整个创作流程。
业界领先的 DiffSinger(AAAI-2022)歌唱合成。输入歌词 + MIDI 音高/时长即可生成歌唱人声。使用 OpenCPOP 预训练模型,支持 K_step=100 超快速离散扩散,NSF-HiFiGAN 声码器,librosa pitch_shift 变调。
通过 FluidSynth + SF2 SoundFont 实现专业乐器合成,5 套优质音色库全面覆盖:Salamander C5 钢琴(24MB)、GigaPiano(17MB)、FluidR3 GM+GS 全套(144MB)、GeneralUser GS(30MB)、TimGM6mb 极简(6MB)。支持全部 128 个 General MIDI 音色 + 鼓组。
全上下文 LLM 对话智能,支持任何 OpenAI 兼容 API。AI Agent 执行专业系统提示词,具备 20+ 工具调用,覆盖音频处理/编辑/合成、项目控制、AI 编曲等。直接通过对话生成从创作到编曲的全流程。
用 Web Audio API 和 Canvas 构建的专业多轨编辑器,支持最多 16 条轨道。每条轨道可独立设置名称、颜色、图标、乐器、音量、声相。支持添加/删除/拖动移动/剪切,双击进行详细音符编辑。
水平时间轴,基于 BPM 的小节/拍子网格(默认 120 BPM,4/4 拍)。实时移动播放头,时间轴缩放,循环区间。完整的播放控制:播放/暂停/停止/录音/循环,时间显示,播放控制,BPM 实时调整。
钢琴卷帘音符编辑器,支持拖选、批量移动/删除、对齐网格。支持 3 个八度范围(C3-B5),音高调整,音符添加/删除。编辑时实时显示音高和时值反馈。
选项卡式垂直混音台视图,每个通道独立音量、声相滑块、VU 表峰值实时更新。静音/独奏按钮,通道分组,批量操作。通过 AudioContext 实时音频,支持多个同时播放。
内置完整乐理模块,支持 18 种调式(大调/小调/和声小调/日本音阶等)、21 种和弦类型、20+ 和弦进行、7 种终止式、4 种典型结构模板。AI Agent 编曲时根据风格自动选择合适的调式、和弦进行。
通过 Demucs 进行 AI 音源分离(可自定义:人声/鼓/贝斯/其他)。基于 Whisper 的语音识别,音频转文字。后台线程异步处理,实时进度更新。
完整文件管理器:创建/上传/下载/删除,自动识别音频文件。完整 Git 集成(status/log/branch/stage/commit/push/pull/checkout/clone/diff/stash)。内置终端、项目设置、查找替换、移动端响应式 UI。
全平台一键安装。默认地址:http://localhost:12346
一份代码,Python 能跑的地方都能跑。
模块化的 Flask 服务,丰富的路由蓝图 + Catppuccin 主题 Web UI。