Tôi nhớ ngày xưa làm Podcast cứ phải ngồi trước cái máy tính, cố đọc và nói thật mượt vào cái mic (nước bọt văng tùm lum). Sau khi đọc được tầm 1h thì mỏi hết cả miệng ra, giọng khản khản kiểu con vịt đực mới được 1 file audio mình mong muốn.

Mà cái thời đó cũng xảy ra cách đây thôi, không lâu đâu. Trước cái vụ AI ra đời và lan rộng như bây giờ.

Ngày nay cách làm đơn gian hơn nhiều, chỉ cần 1 con AI viết kịch bản -> đọc duyệt lại nội dung -> đưa vào chương trình chuyển đổi văn bản thành giọng đọc -> chọn giọng đọc của chính mình -> cho chạy chương trình -> chờ 1 lúc rồi bấm lưu kết quả.

Không còn phải đọc nữa, không còn phải mất hàng giờ trước máy tính nữa mà vẫn có thể sản xuất hàng loạt nội dung podcast theo ý mình, đúng tông giọng của mình luôn.

Câu hỏi là mình đã làm cách nào để xây dựng được 1 công cụ như thế?

Bạn cần có 1 con AI dựng kịch bản, 1 công cụ chuyển đổi văn bản thành giọng đọc, 1 con AI tạo hình ảnh, 1 con AI bắn subtile tự động. Kết nối chúng nó lại với nhau bằng 1 công cụ cuối rồi bấm nút chạy thôi.

Chi tiết mình sẽ viết rõ dưới thread này nhé!