Tạo Giọng Với RVC

Tác giả : Ngô Càn Chiếu

01-12-2025

🎤 PHƯƠNG PHÁP TẠO GIỌNG VỚI RVC (RVC Voice Model Creation)

Dành cho: giọng nam/nữ, baryton/tenor, hát/nói, đọc thơ, đối thoại.

🟩 PHẦN 1 – HIỂU RÕ RVC HOẠT ĐỘNG THẾ NÀO

RVC (Retrieval-based Voice Conversion) là công nghệ “chuyển giọng”:

Bạn nhập audio A (người hát/đọc bất kỳ)
RVC chuyển thành giọng của bạn đã được huấn luyện

Điều này có nghĩa:

👉 Bạn KHÔNG cần hát hay 👉 Chỉ cần ghi âm đúng, sạch, rõ 👉 Phần “đẹp hay không” sẽ do bài hát gốc + RVC xử lý

🟦 PHẦN 2 – CHUẨN BỊ DỮ LIỆU HUẤN LUYỆN (DATASET)

Đây là phần quan trọng nhất, quyết định 70% chất lượng.

▪ 1. Thời lượng cần thiết

Tối thiểu: 3 phút
Tốt nhất: 5–10 phút
Tuyệt vời nhất: 15–20 phút

▪ 2. Nội dung cần thu âm

Bạn phải ghi âm giọng thật của mình, gồm:

✔ A. Đọc nói rõ ràng (bắt buộc)

Khoảng 1–2 phút:

Giới thiệu bản thân
Đọc làm quen
Đọc đoạn văn ngắn

Giọng phải thật tự nhiên.

✔ B. Đọc diễn cảm

Khoảng 2 phút.

Ví dụ:

đoạn thơ
câu chuyện
đối thoại

✔ C. Hát (rất quan trọng)

Ít nhất 2 phút:

Hát giai điệu đơn giản
Hát những câu “la la la”, “a a a”
Hát ở cao độ thấp – trung – cao

Không cần hay – chỉ cần đúng.

🟧 PHẦN 3 – YÊU CẦU KỸ THUẬT KHI THU ÂM

▪ 1. Thiết bị

Micro USB cũng đủ
Tốt hơn: condenser (BM800, AT2020…)
Luôn có pop-filter

▪ 2. Môi trường ghi âm

Phòng không vang
Tắt quạt / máy lạnh
Không để tiếng ồn nền

▪ 3. Cách thu âm

Ghi mono
Format: WAV 44.1kHz / 48kHz, 16-bit
Không được để audio bị méo (clip)

▪ 4. Quan trọng nhất

Không dùng autotune
Không dùng reverb
Không xử lý gì cả (raw voice)

🟥 PHẦN 4 – TIỀN XỬ LÝ ÂM THANH (PREPROCESSING)

Trước khi đưa vào RVC:

Cắt bỏ khoảng lặng quá dài
Normalize mức -6dB
Loại noise nhẹ (nếu cần) bằng:
- Audacity
- iZotope RX
- hoặc “Noise Reduction” trong Adobe Audition
Xuất thành các file 5–30 giây, tên:
```
sample_01.wav
sample_02.wav
…
```

🟩 PHẦN 5 – TẠO DATASET CHO RVC

Giải nén RVC → mở WebUI → tab Dataset:

1) Chọn thư mục chứa audio đã chuẩn bị

2) Chọn giọng:

44100 Hz (phổ biến)
48kHz (nếu bạn muốn chất lượng cao hơn)

3) Bấm Auto Slice / Preprocess

RVC sẽ tự:

chia nhỏ file
chuẩn hoá độ lớn
chuẩn hoá pitch
xóa khoảng lặng

Sau khi xong, nó tạo ra thư mục:

dataset/

🟦 PHẦN 6 – HUẤN LUYỆN (TRAINING)

Vào tab Train trong RVC WebUI.

1) Điền thông tin model

Tên model:
```
Voice_YourName
```
Epochs:
- 100 → cơ bản
- 200 → khá tốt
- 400 → đẹp
- 600 → rất đẹp
- 1000 → giọng “sạch – mượt – tự nhiên”

2) Chọn GPU (nếu có)

Nếu không có GPU → RVC vẫn chạy nhưng rất chậm
Nếu dùng CPU → huấn luyện có thể mất vài giờ

3) Chọn “Feature Index” (nếu bảng có)

Khuyến nghị bật (giọng tự nhiên hơn)

4) Bấm Train

RVC sẽ bắt đầu:

tạo mô hình
học pitch
học màu giọng
học cách bạn phát âm
tạo file final model .pth + index .index

Sau khi chạy xong, bạn có sẽ thấy:

logs/YourModel/…
models/YourModel.pth
models/YourModel.index

🟧 PHẦN 7 – TEST GIỌNG (CONVERSION)

Vào tab Inference:

1) Model:

Chọn file .pth bạn vừa train.

2) Feature Index:

Chọn .index tương ứng.

3) Input audio:

Chọn file có người đang hát (Suno/Udio/giọng bạn…)

4) Convert

RVC sẽ tạo giọng mới với màu giọng của bạn.

Lưu ý để có kết quả hay:

Input phải “sạch”
Không reverb/echo
Tốt nhất là track acapella

🟩 PHẦN 8 – TỐI ƯU SAU KHI HUẤN LUYỆN

✔ Điều chỉnh formant

Nếu giọng bị quá trẻ/già → chỉnh Formant Shift -1 đến +1.

✔ Noise scale

Giảm noise → giọng sạch và ấm hơn.

✔ Index rate

Tăng index ≈ 0.8 – 1.0 → tự nhiên và giống bạn hơn.

✔ Dùng logistic để làm mượt giọng

(Bật trong Inference nếu có tùy chọn).

🟩 PHẦN 9 – KẾT HỢP SUNO/UDIO + RVC

Tạo phiên bản bài hát bằng Suno/Udio (audio clean).
Xuất dạng WAV không hiệu ứng.
Đưa vào RVC → chuyển thành giọng bạn.
Mix lại với nhạc nền (DAW: Reaper, Logic, Studio One…).
Làm mastering nhẹ.

🟦 PHẦN 10 – MẸO QUAN TRỌNG ĐỂ GIỌNG GIỐNG BẠN 90–95%

Dataset phải thu sạch – rõ – gần micro
Giọng nói và giọng hát phải đủ đa dạng
Âm lượng các file đồng đều
Đừng để echo phòng
Giữ pitch tự nhiên khi thu
Không tắt hơi, không gằn giọng
Không xử lý compressor / de-esser trước khi train
Huấn luyện ít nhất 200–400 epochs

🎉 KẾT LUẬN

Với bộ hướng dẫn này, bạn có thể:

Tạo giọng AI hoàn chỉnh
Dùng giọng đó chuyển Suno/Udio thành “giọng thật của bạn”
Huấn luyện giọng để đọc – hát – thoại
Tạo các dự án âm nhạc AI của riêng bạn