今天看啥  ›  专栏  ›  GitHubStore

实时语音交互数字人平台VideoChat

GitHubStore  · 公众号  ·  · 2024-11-19 21:50
    

文章预览

项目简介 实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。可自定义形象与音色,支持音色克隆,首包延迟低至3s。 技术选型 ASR (Automatic Speech Recognition): FunASR LLM (Large Language Model): Qwen End-to-end MLLM (Multimodal Large Language Model): GLM-4-Voice TTS (Text to speech): GPT-SoVITS, CosyVoice, edge-tts THG (Talking Head Generation): MuseTalk 本地部署 0. 显存需求 级联方案(ASR-LLM-TTS-THG):约8G,首包约3s(单张A100)。 端到端语音方案(MLLM-THG):约20G,首包约7s(单张A100)。 对于不需要使用端到端 MLLM 的开发者,可以选择仅包含级联方案的 cascade_only 分支。 $ git checkout cascade_only 1. 环境配置 ubuntu 22.04 python 3.10 CUDA 12.2 torch 2.3.0 $ git lfs install $ git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git $ conda create -n metahuman python=3.10 $ conda activate metahum ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览