Voice
Feishu Voice Skill
OpenClaw skill plugin for generating voice messages via Feishu using ChatTTS and RVC voice conversion
Install
pip install torch
README
# Feishu Voice Skill
## ้ฃไนฆ่ฏญ้ณๆ่ฝ / ้ฃไนฆ่ฏญ้ณๆ่ฝ
> ไธๆฌพๅบไบ OpenClaw ็้ฃไนฆ่ฏญ้ณๆถๆฏ็ๆๆ่ฝ๏ผ่ๅ ChatTTS ไธ RVC ่ฏญ้ณ่ฝฌๆขๆๆฏ๏ผไธบๆจๆ้ ๆธฉๅ่ช็ถใไบฒๅๆธฉๆ็ๅฃฐ้ณไฝ้ชใ
> A Feishu (Lark) voice message generation skill for OpenClaw, combining ChatTTS and RVC voice conversion technologies to deliver warm, natural, and friendly voice experiences.
---
## ็ฎๅฝ / Table of Contents
- [ไปๅบไฟกๆฏ / Repository](#ไปๅบไฟกๆฏ-repository)
- [้กน็ฎไป็ป / Introduction](#้กน็ฎไป็ป-introduction)
- [ๆ ธๅฟ็นๆง / Features](#ๆ ธๅฟ็นๆง-features)
- [ๆๆฏๆถๆ / Architecture](#ๆๆฏๆถๆ-architecture)
- [ๅทฅไฝๆต็จ / Workflow](#ๅทฅไฝๆต็จ-workflow)
- [ๆจ็ๆต็จ่ฏฆ่งฃ / Inference Process](#ๆจ็ๆต็จ่ฏฆ่งฃ-inference-process)
- [ๅฟซ้ๅผๅง / Quick Start](#ๅฟซ้ๅผๅง-quick-start)
- [ไฝฟ็จ่ฏดๆ / Usage](#ไฝฟ็จ่ฏดๆ-usage)
- [้กน็ฎ็ปๆ / Project Structure](#้กน็ฎ็ปๆ-project-structure)
- [ๅผๆบๅผ็จ / Open Source](#ๅผๆบๅผ็จ-open-source)
- [ๅ
่ดฃๅฃฐๆ / Disclaimer](#ๅ
่ดฃๅฃฐๆ-disclaimer)
---
## ไปๅบไฟกๆฏ / Repository
| ้กน็ฎ / Item | ไฟกๆฏ / Info |
|-------------|-------------|
| **ไปๅบๅฐๅ / URL** | https://github.com/jiuyou-dev/feishu-voice-skill |
| **ๆๆ่
/ Owner** | jiuyou-dev (ไนๅนฝๅฎ้ชๅฎค) |
| **่ฎธๅฏ่ฏ / License** | MIT License |
| **ๅผๆบๅ่ฎฎ / Open Source** | ChatTTS (BSD-3-Clause), RVC (MIT) |
---
## ้กน็ฎไป็ป / Introduction
### ไธญๆไป็ป
**Feishu Voice Skill** ๆฏไธๆฌพไธไธบ OpenClaw AI ๅฉๆ่ฎพ่ฎก็้ฃไนฆ่ฏญ้ณๆถๆฏ็ๆๆ่ฝใๅฎๅทงๅฆๅฐ็ปๅไบไธคๅคงๆ ธๅฟๆๆฏ๏ผ
1. **ChatTTS**๏ผๅญ่่ทณๅจๅผๆบ็้ซ่ดจ้่ฏญ้ณๅๆ็ณป็ป๏ผ- ่ด่ดฃๅฐๆๆฌ่ฝฌๆขไธบ่ช็ถๆต็
็่ฏญ้ณ
2. **RVC**๏ผๆฃ็ดขๅผ่ฏญ้ณ่ฝฌๆข๏ผ- ่ด่ดฃๅฐ่ฏญ้ณ่ฝฌๆขไธบ็นๅฎ้ณ่ฒ๏ผไฟ็ๅๅง่ฏญ้ณ็ๆ
ๆๅ้ตๅพ
้่ฟ่ฟไธค่
็ๅฎ็พ็ปๅ๏ผๆไปฌ่ฝๅค็ๆ**ๆธฉๅไบฒๅใๆ
ๆไธฐๅฏใ้ตๅพ่ช็ถ**็่ฏญ้ณๆถๆฏ๏ผๅนถ้่ฟ้ฃไนฆๅนณๅฐๅ้็ป็จๆทใ
### English Introduction
**Feishu Voice Skill** is a voice message generation skill designed specifically for the OpenClaw AI assistant. It ingeniously combines two core technologies:
1. **ChatTTS** (ByteDance's open-source high-quality text-to-speech system) - responsible for converting text into natural and fluent speech
2. **RVC** (Retrieval-based Voice Conversion) - responsible for transforming speech to specific timbres while preserving original emotion and prosody
Through the perfect combination of these two technologies, we can generate **warm, friendly, emotionally rich, and natural-sounding** voice messages and send them to users via the Feishu platform.
---
## ๆ ธๅฟ็นๆง / Features
### ๐ฏ ไธป่ฆๅ่ฝ / Core Functions
| ๅ่ฝ / Feature | ๆ่ฟฐ / Description |
|----------------|-------------------|
| **ChatTTS ่ฏญ้ณๅๆ** | ๅฐไปปๆๆๆฌ่ฝฌๆขไธบ่ช็ถ่ฏญ้ณ |
| **RVC ้ณ่ฒ่ฝฌๆข** | ๅฐ ChatTTS ่ฏญ้ณ่ฝฌๆขไธบ็ฎๆ ้ณ่ฒ |
| **้ฃไนฆๆถๆฏๅ้** | ๆฏๆ็พค่ๅ็ง่่ฏญ้ณๆถๆฏๅ้ |
| **้ฟๆๆฌๅค็** | ่ชๅจๅๆฎตๅค็่ถ
้ฟๆๆฌ |
| **ๆฐๅญ่ฝฌๆข** | ้ฟๆไผฏๆฐๅญ่ชๅจ่ฝฌๆขไธบไธญๆๅคงๅ |
| **ๆน้ๅค็** | ๆฏๆๆน้่ฏญ้ณ็ๆ |
### ๐๏ธ ๅฃฐ้ณ็น็น / Voice Characteristics
- **ๆธฉๅไบฒๅ / Warm & Friendly** - ้ณ่ดจๆธฉๆ่ช็ถ๏ผๅฆๅไธๆๅไบค่ฐ
- **ๆ
ๆไธฐๅฏ / Rich Emotion** - ไฟ็ๆๆฌไธญ็ๆ
ๆ่กจ่พพ
- **้ตๅพ่ช็ถ / Natural Prosody** - ่ฏญ่ฐ่ตทไผ่ช็ถ๏ผๅฌๆ่้
- **ๆธ
ๆฐๅ็กฎ / Clear & Accurate** - ๅ้ณๆ ๅ๏ผ่ฏญไนไผ ่พพๅ็กฎ
---
## ๆๆฏๆถๆ / Architecture
### ็ณป็ปๆถๆๅพ / System Architecture
```
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Feishu Voice Skill โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ
โ โ Text โโโโโถโ ChatTTS โโโโโถโ RVC โโโโโถโ Feishu โ โ
โ โ Input โ โ (TTS) โ โ (VC/้ณ่ฒ) โ โ (Send) โ โ
โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ
โ โ โ โ โ โ
โ โผ โผ โผ โผ โ
โ ็จๆท่พๅ
ฅ ๆๆฌโ่ฏญ้ณ ้ณ่ฒ่ฝฌๆข ้ฃไนฆๅ้ โ
โ User Input TextโSpeech Timbre Conv. Message Send โ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
```
### ๆ ธๅฟๆๆฏๆ / Technology Stack
| ็ปไปถ / Component | ๆๆฏ / Technology | ็ๆฌ / Version | ่ฏดๆ / Description |
|------------------|------------------|----------------|-------------------|
| TTS ๅผๆ | ChatTTS | latest | ๅญ่่ทณๅจๅผๆบ้ซ่ดจ้่ฏญ้ณๅๆ |
| ๅฃฐ้ณ่ฝฌๆข | RVC | v2 | ๆฃ็ดขๅผ่ฏญ้ณ่ฝฌๆขๆจกๅ |
| AI ๆกๆถ | PyTorch | 2.x | ๆทฑๅบฆๅญฆไน ๆกๆถ |
| ๆถๆฏๅนณๅฐ | ้ฃไนฆ API | v1 | ่ฏญ้ณๆถๆฏๅ้ |
| ่ฟ่กๆถ | Python | 3.11 | ็จๅบ่ฟ่ก็ฏๅข |
| ้ณ้ขๅค็ | FFmpeg | latest | ้ณ้ขๆ ผๅผ่ฝฌๆข |
---
## ๅทฅไฝๆต็จ / Workflow
### ๅฎๆดๅทฅไฝๆต็จ / Complete Workflow
```
Step 1: ็จๆท่พๅ
ฅๆๆฌ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ็จๆท่พๅ
ฅๆ AI ็ๆๆๆฌ โ
โ ไพ: "ไฝ ๅฅฝ๏ผไปๅคฉๅคฉๆฐ็ไธ้ๅ~" โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
Step 2: ChatTTS ่ฏญ้ณๅๆ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ChatTTS ๅฐๆๆฌ่ฝฌๆขไธบ่ฏญ้ณ โ
โ - ่ช็ถๆต็
็่ฏญ่ฐ โ
โ - ไฟ็ๆ
ๆ่กจ่พพ โ
โ - ้ตๅพ่ๅฅ่ช็ถ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
Step 3: ้ณ้ข้ขๅค็
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ - ้ๆ ท็่ฝฌๆข โ
โ - ๆ ผๅผ่ฝฌๆข (wav/opus) โ
โ - ้ณ้ข่ดจ้ไผๅ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
Step 4: RVC ้ณ่ฒ่ฝฌๆข
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ RVC ๅฐ่ฏญ้ณ่ฝฌๆขไธบ็ฎๆ ้ณ่ฒ โ
โ - ไฟ็ๅๅงๆ
ๆ โ
โ - ไฟ็้ตๅพ็นๅพ โ
โ - ๅบ็จ็ฎๆ ้ณ่ฒๆจกๅ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
Step 5: ๅๅค็ไธๅ้
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ - ้ณ้ขๅๅนถ โ
โ - ๆ ผๅผ่ฝฌๆขไธบ OPUS (้ฃไนฆไธ็จ) โ
โ - ๅ้่ณ้ฃไนฆ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
Step 6: ็จๆทๆฅๆถ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ็จๆทๅจ้ฃไนฆไธญๆฅๆถ่ฏญ้ณๆถๆฏ โ
โ ็ดๆฅๆญๆพ๏ผๆ ้ไธ่ฝฝ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
```
---
## ๆจ็ๆต็จ่ฏฆ่งฃ / Inference Process
### 1. ChatTTS ๆจ็ๆต็จ / ChatTTS Inference Process
```
่พๅ
ฅๆๆฌ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ๆๆฌ่ง่ๅ (Text Normalization) โ
โ - ๆฐๅญ่ฝฌไธญๆ โ
โ - ็นๆฎ็ฌฆๅทๅค็ โ
โ - ๅค้ณๅญๅค็ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 2. ่ฏญไนๅๆ (Semantic Analysis) โ
โ - ๅฅๅญ่พน็ๆฃๆต โ
โ - ๆ
ๆๆ ๆณจ โ
โ - ้ตๅพ้ขๆต โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 3. ็ๆ้ณ้ขๅๆฐ โ
โ - ๆข
ๅฐ้ข่ฐฑ (Mel-Spectrogram) โ
โ - pitch ่ฝฎๅป โ
โ - ่ฝ้ๆฒ็บฟ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 4. ๅฃฐ็ ๅจๅๆ (Vocoder) โ
โ - HiFiGAN / BigVGAN โ
โ - ๆณขๅฝข็ๆ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
ChatTTS ่ฏญ้ณ่พๅบ (raw_audio.wav)
```
### 2. RVC ๆจ็ๆต็จ / RVC Inference Process
```
ChatTTS ่ฏญ้ณ่พๅ
ฅ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ้ณ้ข้ขๅค็ โ
โ - ้้ๆ ท (ๆ นๆฎๆจกๅ่ฆๆฑ) โ
โ - ๅๅฃฐ้่ฝฌๆข โ
โ - ๆ ๅๅ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 2. F0 ๆๅ (Pitch Extraction) โ
โ - RMVPE (ๆจ่) โ
โ - Harvest โ
โ - Crepe โ
โ - ๆๅๅบ้ข่ฝฎๅป โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 3. ็นๅพๆๅ โ
โ - Huberts ็นๅพๆๅ โ
โ - ้ณ้ข่กจ็คบๅญฆไน โ
โ - 1000ๅธง/็ง โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 4. ้ณ่ฒ่ฝฌๆข โ
โ - ๅ ่ฝฝ RVC ๆจกๅๆ้ โ
โ - ็นๅพๆ ๅฐ โ
โ - ้ณ่ฒๅๆข โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 5. ๆณขๅฝข้ๅปบ โ
โ - ้ๅๆข โ
โ - ่พๅบ็ฎๆ ้ณ่ฒ่ฏญ้ณ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
RVC ่ฝฌๆขๅ่ฏญ้ณ (voice_converted.wav)
```
### 3. ้ฃไนฆๅ้ๆต็จ / Feishu Send Process
```
RVC ่ฝฌๆขๅ่ฏญ้ณ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ๆ ผๅผ่ฝฌๆข โ
โ - WAV โ OPUS (FFmpeg) โ
โ - ้ฃไนฆๅชๆฏๆ OPUS ๆ ผๅผ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 2. ้ณ้ขไธไผ โ
โ - ่ฐ็จ้ฃไนฆ API โ
โ - ่ทๅ file_key โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 3. ๅ้่ฏญ้ณๆถๆฏ โ
โ - ่ฐ็จๅๆถๆฏ API โ
โ - ๆๅฎๆฅๆถ่
โ
โ - ๆฏๆ็พค่/็ง่ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
้ฃไนฆๆถๆฏๅ้ๆๅ โ
```
---
## ๅฟซ้ๅผๅง / Quick Start
### ็ฏๅข่ฆๆฑ / Requirements
| ่ฆๆฑ / Requirement | ๆไฝ้
็ฝฎ / Minimum | ๆจ่้
็ฝฎ / Recommended |
|-------------------|-------------------|----------------------|
| Python | 3.11 | 3.11 |
| GPU | GTX 1060 6GB | RTX 3060 12GB+ |
| ๅ
ๅญ / RAM | 8GB | 16GB+ |
| ็ฃ็็ฉบ้ด / Disk | 10GB | 20GB+ |
| FFmpeg | โ ๅฟ
้ / Required | Latest |
### ๅฎ่ฃ
ๆญฅ้ชค / Installation
#### ไธญๆๅฎ่ฃ
```bash
# 1. ๅ
้ไปๅบ
git clone https://github.com/jiuyou-dev/feishu-voice-skill.git
cd feishu-voice-skill
# 2. ๅฎ่ฃ
Python ไพ่ต
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu128
pip install -r packages/chatttts/requirements.txt
pip install -r packages/rvc/requirements.txt
# 3. ๅฎ่ฃ
FFmpeg (Windows)
# ไธ่ฝฝ https://ffmpeg.org/download.html
# ๆไฝฟ็จ: winget install ffmpeg
# 4. ้
็ฝฎ้ฃไนฆ API ๅฏ้ฅ
# ๅจ้ฃไนฆๅผๆพๅนณๅฐๅๅปบๅบ็จๅนถ่ทๅ app_id ๅ app_secret
```
#### English Installation
```bash
# 1. Clone the repository
git clone https://github.com/jiuyou-dev/feishu-voice-skill.git
cd feishu-voice-skill
# 2. Install Python dependencies
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu128
pip install -r packages/chatttts/requirements.txt
pip install -r packages/rvc/requirements.txt
# 3. Install FFmpeg (Windows)
# Download from https://ffmpeg.org/download.html
# Or use: winget install ffmpeg
# 4. Configure Feishu API credentials
# Create an app on Feishu Open Platform and get app_id and app_secret
```
---
## ไฝฟ็จ่ฏดๆ / Usage
### ๅบๆฌ็จๆณ / Basic Usage
#### ไธญๆไฝฟ็จ
```python
# ๆนๅผ1: ไฝฟ็จ่ๅๆจ็็ฎก้ (ๆจ่)
from scripts.chattts_rvc_pipeline import ChatTTSRVCPipeline
pipeline = ChatTTSRVCPipeline()
pipeline.run(
text="ไฝ ๅฅฝ๏ผไปๅคฉๅคฉๆฐ็ไธ้ๅ~",
output_path="output.wav"
)
# ๆนๅผ2: ๅ้้ฃไนฆ่ฏญ้ณๆถๆฏ
from scripts.feishu_voice import send_voice_message
send_voice_message(
text="่ฟๆฏๆต่ฏ่ฏญ้ณๆถๆฏ",
receive_id="ou_xxxxx", # ้ฃไนฆ็จๆท open_id
receive_id_type="open_id"
)
```
#### English Usage
```python
# Method 1: Use combined pipeline (Recomm
... (truncated)
voice
Comments
Sign in to leave a comment