
Sebagai bagian dari Pixel Feature Drop bulan Desember, smartphone Google Pixel mendapat pembaruan penting di aplikasi Perekam asli. Ini memiliki Label Pembicara yang dapat mengidentifikasi banyak orang dan menempatkan Label Pembicara sehingga Anda tahu siapa yang mengatakan apa saat Anda mengunjungi kembali rekaman nanti. Kemampuan baru ini telah digulirkan smartphone Pixel 6, Pixel Pro, Pixel 6a, Pixel 7 dan Pixel 7 Pro. Tim di balik pengembangan fitur bagus ini kini telah menjelaskan cara mereka mengerjakannya. Google mengatakan fitur tersebut memanfaatkan perkembangan terkini dalam pembelajaran mesin di perangkat untuk mentranskripsi ucapan, mengenali peristiwa audio, menyarankan tag untuk judul, dan membantu pengguna menavigasi transkrip, untuk informasi-informasi teknologi menarik lainnya di kopitekno.com.
Sistem diarisasi speaker Google
Label Speaker didukung oleh Turn-to-Diarize, sistem diarisasi speaker Google yang baru – adalah proses mempartisi aliran audio masukan ke dalam segmen-segmen sesuai identitas speaker. Sistem diarisasi speaker Google memiliki tiga segmen utama.
- Yang pertama adalah ‘speaker turn detection’ yang mendeteksi perubahan speaker pada input speech. Itu mengubah fitur akustik menjadi transkrip teks yang selanjutnya ditambah dengan token khusus yang mewakili pergantian pembicara.
- Yang kedua adalah ‘model encoder speaker’ yang mengekstraksi karakteristik suara dari setiap putaran speaker. “Setelah rekaman audio disegmentasi menjadi putaran speaker yang homogen, kami menggunakan model enkoder speaker untuk mengekstraksi vektor penyemat untuk mewakili karakteristik suara dari setiap putaran speaker,” kata perusahaan itu.
- Yang ketiga adalah ‘algoritme pengelompokan multi-tahap’ yang digunakan untuk menentukan apakah setidaknya ada dua pembicara yang berbeda dalam rekaman dan kemudian memberi anotasi pada setiap pembicara.
Koreksi dan Kustomisasi
Aplikasi perekam juga melakukan koreksi secara real-time untuk secara otomatis memperbarui label speaker di layar dan mencerminkan prediksi yang paling akurat. “Karena model ini menggunakan lebih banyak input audio, itu mengakumulasi kepercayaan pada label speaker yang diprediksi, dan kadang-kadang dapat melakukan koreksi pada label speaker dengan tingkat kepercayaan rendah yang diprediksi sebelumnya,” kata Google.