Tạo Giọng Với RVC

Tác giả : Ngô Càn Chiếu
01-12-2025


🎤 PHƯƠNG PHÁP TẠO GIỌNG VỚI RVC (RVC Voice Model Creation)

Dành cho: giọng nam/nữ, baryton/tenor, hát/nói, đọc thơ, đối thoại.


🟩 PHẦN 1 – HIỂU RÕ RVC HOẠT ĐỘNG THẾ NÀO

RVC (Retrieval-based Voice Conversion) là công nghệ “chuyển giọng”:

  • Bạn nhập audio A (người hát/đọc bất kỳ)
  • RVC chuyển thành giọng của bạn đã được huấn luyện

Điều này có nghĩa:

👉 Bạn KHÔNG cần hát hay 👉 Chỉ cần ghi âm đúng, sạch, rõ 👉 Phần “đẹp hay không” sẽ do bài hát gốc + RVC xử lý


🟦 PHẦN 2 – CHUẨN BỊ DỮ LIỆU HUẤN LUYỆN (DATASET)

Đây là phần quan trọng nhất, quyết định 70% chất lượng.

▪ 1. Thời lượng cần thiết

  • Tối thiểu: 3 phút
  • Tốt nhất: 5–10 phút
  • Tuyệt vời nhất: 15–20 phút

▪ 2. Nội dung cần thu âm

Bạn phải ghi âm giọng thật của mình, gồm:

A. Đọc nói rõ ràng (bắt buộc)

Khoảng 1–2 phút:

  • Giới thiệu bản thân
  • Đọc làm quen
  • Đọc đoạn văn ngắn

Giọng phải thật tự nhiên.

B. Đọc diễn cảm

Khoảng 2 phút.

Ví dụ:

  • đoạn thơ
  • câu chuyện
  • đối thoại

C. Hát (rất quan trọng)

Ít nhất 2 phút:

  • Hát giai điệu đơn giản
  • Hát những câu “la la la”, “a a a”
  • Hát ở cao độ thấp – trung – cao

Không cần hay – chỉ cần đúng.


🟧 PHẦN 3 – YÊU CẦU KỸ THUẬT KHI THU ÂM

▪ 1. Thiết bị

  • Micro USB cũng đủ
  • Tốt hơn: condenser (BM800, AT2020…)
  • Luôn có pop-filter

▪ 2. Môi trường ghi âm

  • Phòng không vang
  • Tắt quạt / máy lạnh
  • Không để tiếng ồn nền

▪ 3. Cách thu âm

  • Ghi mono
  • Format: WAV 44.1kHz / 48kHz, 16-bit
  • Không được để audio bị méo (clip)

▪ 4. Quan trọng nhất

  • Không dùng autotune
  • Không dùng reverb
  • Không xử lý gì cả (raw voice)

🟥 PHẦN 4 – TIỀN XỬ LÝ ÂM THANH (PREPROCESSING)

Trước khi đưa vào RVC:

  1. Cắt bỏ khoảng lặng quá dài

  2. Normalize mức -6dB

  3. Loại noise nhẹ (nếu cần) bằng:

    • Audacity
    • iZotope RX
    • hoặc “Noise Reduction” trong Adobe Audition
  4. Xuất thành các file 5–30 giây, tên:

    sample_01.wav
    sample_02.wav
    …

🟩 PHẦN 5 – TẠO DATASET CHO RVC

Giải nén RVC → mở WebUI → tab Dataset:

1) Chọn thư mục chứa audio đã chuẩn bị

2) Chọn giọng:

  • 44100 Hz (phổ biến)
  • 48kHz (nếu bạn muốn chất lượng cao hơn)

3) Bấm Auto Slice / Preprocess

RVC sẽ tự:

  • chia nhỏ file
  • chuẩn hoá độ lớn
  • chuẩn hoá pitch
  • xóa khoảng lặng

Sau khi xong, nó tạo ra thư mục:

dataset/

🟦 PHẦN 6 – HUẤN LUYỆN (TRAINING)

Vào tab Train trong RVC WebUI.

1) Điền thông tin model

  • Tên model:

    Voice_YourName
  • Epochs:

    • 100 → cơ bản
    • 200 → khá tốt
    • 400 → đẹp
    • 600 → rất đẹp
    • 1000 → giọng “sạch – mượt – tự nhiên”

2) Chọn GPU (nếu có)

  • Nếu không có GPU → RVC vẫn chạy nhưng rất chậm
  • Nếu dùng CPU → huấn luyện có thể mất vài giờ

3) Chọn “Feature Index” (nếu bảng có)

  • Khuyến nghị bật (giọng tự nhiên hơn)

4) Bấm Train

RVC sẽ bắt đầu:

  • tạo mô hình
  • học pitch
  • học màu giọng
  • học cách bạn phát âm
  • tạo file final model .pth + index .index

Sau khi chạy xong, bạn có sẽ thấy:

logs/YourModel/…
models/YourModel.pth
models/YourModel.index

🟧 PHẦN 7 – TEST GIỌNG (CONVERSION)

Vào tab Inference:

1) Model:

Chọn file .pth bạn vừa train.

2) Feature Index:

Chọn .index tương ứng.

3) Input audio:

Chọn file có người đang hát (Suno/Udio/giọng bạn…)

4) Convert

RVC sẽ tạo giọng mới với màu giọng của bạn.

Lưu ý để có kết quả hay:

  • Input phải “sạch”
  • Không reverb/echo
  • Tốt nhất là track acapella

🟩 PHẦN 8 – TỐI ƯU SAU KHI HUẤN LUYỆN

✔ Điều chỉnh formant

Nếu giọng bị quá trẻ/già → chỉnh Formant Shift -1 đến +1.

✔ Noise scale

Giảm noise → giọng sạch và ấm hơn.

✔ Index rate

Tăng index ≈ 0.8 – 1.0 → tự nhiên và giống bạn hơn.

✔ Dùng logistic để làm mượt giọng

(Bật trong Inference nếu có tùy chọn).


🟩 PHẦN 9 – KẾT HỢP SUNO/UDIO + RVC

  1. Tạo phiên bản bài hát bằng Suno/Udio (audio clean).
  2. Xuất dạng WAV không hiệu ứng.
  3. Đưa vào RVC → chuyển thành giọng bạn.
  4. Mix lại với nhạc nền (DAW: Reaper, Logic, Studio One…).
  5. Làm mastering nhẹ.

🟦 PHẦN 10 – MẸO QUAN TRỌNG ĐỂ GIỌNG GIỐNG BẠN 90–95%

  • Dataset phải thu sạch – rõ – gần micro
  • Giọng nói và giọng hát phải đủ đa dạng
  • Âm lượng các file đồng đều
  • Đừng để echo phòng
  • Giữ pitch tự nhiên khi thu
  • Không tắt hơi, không gằn giọng
  • Không xử lý compressor / de-esser trước khi train
  • Huấn luyện ít nhất 200–400 epochs

🎉 KẾT LUẬN

Với bộ hướng dẫn này, bạn có thể:

  • Tạo giọng AI hoàn chỉnh
  • Dùng giọng đó chuyển Suno/Udio thành “giọng thật của bạn”
  • Huấn luyện giọng để đọc – hát – thoại
  • Tạo các dự án âm nhạc AI của riêng bạn

Nếu bạn muốn mình viết thêm:

🎤 “Bài đọc mẫu để thu giọng cho RVC” 🎤 “Cách chỉnh giọng baryton/tenor trong RVC” 🎤 “Cách mix giọng AI cho ca khúc Suno”

Chỉ cần nói “Muốn bài đọc mẫu” hoặc “Muốn hướng dẫn mix” là mình soạn ngay cho bạn.