CosyVoice：阿里巴巴的開源多語言語音生成模型，擁有 20K 星星

Q: 什麼是 CosyVoice？

CosyVoice 是阿里巴巴 FunAudioLLM 團隊開發的開源多語言語音生成模型。它支援文字轉語音（TTS）、零樣本語音複製與情緒可控的語音合成，涵蓋 9 種語言與 18 種以上中文方言。該專案在 GitHub 上擁有超過 20,000 個星星。

Q: CosyVoice 支援哪些語言？

CosyVoice 支援 9 種語言：普通話、英語、日語、韓語、法語、西班牙語、俄語、阿拉伯語與粵語。此外，它還支援超過 18 種中文方言，包括上海話、四川話、閩南語與客家話，使其成為語言最多樣化的開源 TTS 模型之一。

Q: CosyVoice 的零樣本語音複製如何運作？

CosyVoice 的零樣本語音複製可以僅憑 3-10 秒的音訊樣本複製說話者的聲音，無需任何微調。它從樣本中分析語音特徵，並將其應用於生成相同聲音的新語音。品質足以滿足大多數實際應用，儘管極其獨特的聲音可能出現輕微瑕疵。

Q: 什麼是 CosyVoice 的指令模式？

CosyVoice 的指令模式允許使用者透過自然語言指令控制生成語音的說話風格與情緒。您可以直接在文字提示中指定速度、音高、強調與情緒語氣（快樂、悲傷、興奮、平靜）等參數，無需參考音訊。

Q: 運行 CosyVoice 的硬體需求是什麼？

CosyVoice 需要至少 6GB VRAM 的 GPU 來運行基礎模型，完整模型需要 12GB+。建議使用支援 CUDA 的 NVIDIA GPU。僅使用 CPU 的推理是可能的，但速度明顯較慢（10-20 倍）。該模型相容 Windows、Linux 與 macOS（在 Apple Silicon 上支援 MPS 加速）。

語音生成技術取得了顯著進步，但大多數開源文字轉語音（TTS）模型仍在一個基本權衡中掙扎：品質與語言覆蓋率之間的取捨。由阿里巴巴 FunAudioLLM 團隊開發的 CosyVoice 打破了這個障礙，在 9 種語言與 18 種以上中文方言中提供生產級品質的語音生成。

憑藉超過 20,000 個 GitHub 星星，CosyVoice 已成為開發者與研究人員的首選解決方案，他們需要具備零樣本語音複製、情緒控制與指令跟隨生成等先進能力的多語言語音合成。與按字元收費並限制自定義的商業 TTS API 不同，CosyVoice 是完全開源且可自架的。

該模型的架構基於一種新穎的方法，將內容、說話者與風格資訊分離到不同的潛在空間中，從而實現對生成語音前所未有的控制。這種設計允許使用者混合搭配聲音、語言與說話風格，而這些以前需要大量的微調或單獨的模型。

CosyVoice 的語音複製如何運作？

CosyVoice 的零樣本語音複製是其最令人印象深刻的能力之一。它可以在沒有任何微調或訓練的情況下，從僅 3 到 10 秒的音訊中複製說話者的聲音。

flowchart TD
    A["參考音訊\n3-10 秒"] --> B["語音編碼器\n提取說話者嵌入"]
    B --> C["說話者身份\n潛在表示"]

    D["目標文字\n'你好，這是你的聲音'"] --> E["內容編碼器"]
    E --> F["內容表示"]

    C --> G["交叉注意力\n融合層"]
    F --> G
    G --> H["流匹配\n解碼器"]
    H --> I["🎤 生成的語音\n以參考聲音發出"]

    style A fill:#1e1040,color:#ceb9ff
    style B fill:#0c3a3d,color:#8ff5ff
    style C fill:#1d2634,color:#a5abb8
    style D fill:#1e1040,color:#ceb9ff
    style E fill:#0c3a3d,color:#8ff5ff
    style G fill:#1d2634,color:#a5abb8
    style I fill:#0c3a3d,color:#8ff5ff

語音編碼器從參考音訊中提取緊湊的說話者嵌入，捕捉音色、音高範圍、口音與說話節奏。然後透過交叉注意力機制將此嵌入與目標文字內容結合，使解碼器能夠生成同時匹配語音與內容的語音。

語音複製品質比較

參考音訊長度	複製品質	瑕疵	使用案例
3 秒	一般（捕捉基本音色）	些許機器感	快速展示
10 秒	良好（捕捉口音與節奏）	微小瑕疵	一般使用
30 秒	很好（捕捉說話風格）	罕見瑕疵	可接受的生產品質
60+ 秒	優秀（近乎完美的複製）	極少瑕疵	高品質生產

CosyVoice 支援哪些語言與方言？

CosyVoice 的語言覆蓋率對於開源 TTS 模型來說非常出色，特別是對中文方言的支援。

語言	本地名稱	支援品質
普通話	普通话	優秀（原生）
英語	English	優秀
日語	日本語	很好
韓語	한국어	很好
粵語	粤語	很好
法語	Francais	良好
西班牙語	Espanol	良好
俄語	Русский	良好
阿拉伯語	العربية	良好

除了這 9 種語言之外，CosyVoice 還支援 18 種以上的中文方言，包括上海話、四川話、閩南語（臺灣話）、客家話、潮州話等。這使其對於區域應用與保護語言多樣性具有獨特價值。

指令模式：控制情緒與風格

flowchart LR
    A["使用者指令\n'用高音調\n興奮地說這個'"] --> B["指令編碼器"]
    B --> C["風格嵌入"]
    D["要說的文字"] --> E["內容編碼器"]
    E --> F[融合]
    C --> F
    F --> G["🎤 帶有指定\n情緒的語音"]

    H["支援的\n參數:"] --> I["速度: 0.5x - 2.0x"]
    H --> J["音高: 低, 中, 高"]
    H --> K["情緒: 快樂, 悲傷,\n興奮, 平靜, 生氣"]
    H --> L["強調: 詞級\n重音控制"]

    style A fill:#1e1040,color:#ceb9ff
    style C fill:#0c3a3d,color:#8ff5ff
    style G fill:#0c3a3d,color:#8ff5ff
    style H fill:#1d2634,color:#a5abb8

指令模式讓使用者以自然語言描述所需的說話風格，使 CosyVoice 的表達能力遠超傳統 TTS 系統，後者需要複雜的 SSML 標籤或每種變化的參考音訊。

CosyVoice 的硬體需求與部署選項是什麼？

CosyVoice 可以在消費級硬體上運行，儘管效能會根據可用的 GPU 運算能力而有顯著差異。

配置	所需 VRAM	推理速度	品質
基礎模型（CPU）	無	0.5-1 倍即時	良好
基礎模型（6GB GPU）	6 GB	2-4 倍即時	良好
完整模型（12GB GPU）	12 GB	4-8 倍即時	很好
完整模型（24GB GPU）	24 GB	8-15 倍即時	優秀
串流模式	4 GB	<500ms 延遲	良好

該模型可以部署為 Python 函式庫、網頁 API（透過 FastAPI 或 Gradio），或整合到更大的應用程式中。對於生產用途，24GB GPU（RTX 3090/4090）上的完整模型提供了品質與速度的最佳平衡。

FAQ

什麼是 CosyVoice？ CosyVoice 是阿里巴巴 FunAudioLLM 團隊開發的開源多語言語音生成模型。它支援文字轉語音（TTS）、零樣本語音複製與情緒可控的語音合成，涵蓋 9 種語言與 18 種以上中文方言。該專案在 GitHub 上擁有超過 20,000 個星星。

CosyVoice 支援哪些語言？ CosyVoice 支援 9 種語言：普通話、英語、日語、韓語、法語、西班牙語、俄語、阿拉伯語與粵語。此外，還支援超過 18 種中文方言，包括上海話、四川話、閩南語與客家話。

CosyVoice 的零樣本語音複製如何運作？ CosyVoice 的零樣本語音複製可以僅憑 3-10 秒的音訊樣本複製說話者的聲音，無需任何微調。它分析樣本中的語音特徵，並生成相同聲音的新語音。

什麼是 CosyVoice 的指令模式？ CosyVoice 的指令模式允許使用者透過自然語言指令控制生成語音的說話風格與情緒。您可以直接在文字提示中指定速度、音高、強調與情緒語氣等參數，無需參考音訊。

運行 CosyVoice 的硬體需求是什麼？ CosyVoice 需要至少 6GB VRAM 的 GPU 來運行基礎模型，完整模型需要 12GB+。建議使用支援 CUDA 的 NVIDIA GPU。