AI TEXT-TO-SPEECH BARU GOOGLE SANGAT BAGUS KAMI YAKIN ANDA TIDAK DAPAT MENGETAHUINYA DARI MANUSIA SEJATI

Bisakah Anda membedakan antara ucapan komputer yang dihasilkan AI dan manusia yang hidup dan nyata? Mungkin Anda selalu berpikir Anda bisa. Mungkin Anda menyukai Alexa dan Siri, tetapi yakinlah bahwa Anda tidak akan pernah salah membedakan keduanya dengan wanita sungguhan.

Hal-hal akan menjadi jauh lebih menarik. Insinyur Google telah bekerja keras menciptakan sistem text-to-speech yang disebut Tacotron 2 . Menurut kertas mereka diterbitkan bulan ini, sistem pertama kali membuat spektogram teks, representasi visual tentang bagaimana pidato seharusnya terdengar. Gambar itu dimasukkan melalui algoritma WaveNet Google yang ada, yang menggunakan gambar untuk menghasilkan ucapan manusia yang terdengar sangat alami.

pernell robert menua saat kematian

Dengan menggunakan metode ini, para peneliti melaporkan, 'Model kami mencapai skor opini rata-rata (MOS) 4,53 sebanding dengan MOS 4,58 untuk pidato yang direkam secara profesional.' (Skor opini rata-rata adalah istilah telekomunikasi yang mengukur seberapa nyata sesuatu terdengar.)

Seperti yang ditunjukkan oleh sampel audio Google, Tacotron 2 dapat mendeteksi dari konteks perbedaan antara kata benda 'gurun' dan kata kerja 'gurun', serta kata benda 'sekarang' dan kata kerja 'hadir', dan mengubah pengucapannya sesuai dengan itu. Ini dapat memberi penekanan pada kata-kata yang dikapitalisasi dan menerapkan infleksi yang tepat ketika mengajukan pertanyaan daripada membuat pernyataan.

Dan itu dapat menghasilkan teks yang terdengar sangat mirip dengan ucapan manusia sehingga sulit atau tidak mungkin untuk mengetahui perbedaannya. Jika Anda ingin melihat seberapa sulitnya, buka Google halaman sampel audio , dan gulir ke bawah ke kumpulan sampel terakhir, berjudul 'Tacotron 2 or Human?' Di sana Anda akan menemukan Tacotron 2 dan orang sungguhan yang masing-masing mengucapkan kalimat seperti, 'Gadis itu membuat video tentang lipstik Star Wars.'

SPOILER ALERT: Untuk menguji diri sendiri, dengarkan sampelnya dan tebak yang mana sebelum membaca sisa kolom ini.

Jadi sampel mana yang text-to-speech dan mana yang merupakan suara manusia asli? Insinyur Google tidak mengatakan tetapi mereka telah meninggalkan petunjuk yang sangat besar. Setiap sampel file .wav memiliki nama file yang mengandung istilah 'gen' atau 'gt.' Berdasarkan makalah tersebut, sangat mungkin bahwa 'gen' menunjukkan ucapan yang dihasilkan oleh Tacotron 2, dan 'gt' adalah ucapan manusia yang sebenarnya. ('GT' kemungkinan singkatan dari 'ground truth', istilah pembelajaran mesin yang pada dasarnya berarti 'real deal.')

Dengan asumsi ini benar, berikut adalah jawaban untuk tes: