Cara Membuat Asisten AI: Panduan Teknologi Asisten Virtual 2024

Komentar · 280 Tampilan

Asisten virtual cerdas menembus semua area bisnis, meningkatkan citra merek dan mengurangi beban karyawan dukungan pelanggan. Dalam beberapa tahun terakhir, berkat Kecerdasan Buatan, solusi-solusi ini telah mencapai tahap pengembangan mutakhir, mulai dari GPT hingga manusia digital yang re

JENIS APLIKASI ASISTEN VIRTUAL AI

Ada beberapa jenis asisten virtual AI: hatbots, asisten suara, avatar AI, dan asisten virtual khusus domain.

  • Chatbotstelah menjadi arus utama di sektor eCommerce sejak awal.Namun, penerapan chatbot modern didukung oleh Kecerdasan Buatan, yang memberi mereka kemampuan untuk memikirkan pertanyaan pelanggan daripada mendorong pelanggan melalui rangkaian peristiwa statis.
  • Asisten suaramenggunakan pengenalan ucapan otomatis dan Pemrosesan Bahasa Alami untuk memberikan respons vokal terhadap pertanyaan.Contoh terkenal dari asisten suara tersebut adalah produk Siri dan Google Assistant.
  • Avatar AIadalah model 3D yang dirancang agar terlihat seperti manusia, yang digunakan untuk aplikasi hiburan, atau untuk memberikan sentuhan manusia pada interaksi dukungan pelanggan virtual.Teknologi mutakhir dari perusahaan seperti NVIDIA dapat menghasilkan avatar manusia yang hampir nyata secara real-time.
  • Asisten virtual khusus domainadalah implementasi asisten virtual AI yang sangat terspesialisasi yang dirancang untuk industri yang sangat spesifik, dan dioptimalkan untuk kinerja tinggi di bidang perjalanan,keuangan, teknik, keamanan siber, dan sektor menuntut lainnya.

Asisten AI juga dapat dibagi menjadi tiga jenis utama: diaktifkan dengan suara, berorientasi pada tugas, dan prediktif.

  1. Asisten yang diaktifkan dengan suara, misalnya Siri atau Alexa, dipicu oleh perintah suara dan dirancang untuk tugas sederhana seperti mencari informasi, menyetel alarm, atau memutar musik.
  2. Asisten berorientasi tugasdibuat untuk tujuan tertentu, misalnya, untuk menjadwalkan janji temu, dan mengirim atau mengatur email.
  3. Asisten prediktif, seperti Google Now atau Cortana, memanfaatkan algoritme ML untuk memprediksi kebutuhan pengguna dan menawarkan informasi serta layanan yang relevan bahkan sebelum mereka memintanya.

Meskipun semua asisten ini menyelesaikan kebutuhan bisnis yang sama, dari perspektif implementasi teknis, setiap proyek memiliki fitur dan tantangan pengembangannya sendiri.Kami akan membicarakannya nanti di artikel ini

TEKNOLOGI DI BALIK ASISTEN AI

Sebelum Anda melanjutkan dan membuat asisten buatan, Anda harus mempelajari dasar-dasar cara kerjanya.Berikut adalah beberapa teknologi utama di balik pemberdayaan asisten virtual AI untuk meningkatkan produktivitas, kenyamanan, dan manfaat penghematan biaya.Mari selami detailnya.

1. UCAPAN-KE-TEKS (STT) DAN TEKS-KE-UCAPAN (TTS)

Teknologi ucapan-ke-teksmengubah ucapan manusia menjadi sinyal digital.Berikut ini penjelasan sederhana tentang cara kerjanya.Ketika seseorang berbicara, mereka menciptakan serangkaian getaran.Dengan konverter analog-ke-digital (ACD), sistem mengubahnya menjadi sinyal digital dan mengekstrak suara, kemudian mengelompokkannya dan membandingkannya dengan fonem yang ada.Dengan penggunaan model matematika yang kompleks, perangkat lunak ini mencocokkan fonem-fonem ini dengan setiap kata dan frasa dan menciptakan interpretasi teks tentang apa yang diartikulasikan seseorang.

Teknologi text-to-speechdidasarkan pada algoritma yang berlawanan.Ini mengubah teks menjadi keluaran suara.TTS merupakan simulasi ucapan manusia dari teks dengan memanfaatkan pembelajaran mesin.Mengubah teks menjadi suara mencakup tiga langkah.Sistem perlu mengubah teks menjadi kata-kata, kemudian melakukan transkripsi fonetik, dan kemudian mengubah transkripsi menjadi ucapan.

Speech-to-text (STT) dan Text-to-speech (TTS) digunakan dalam mengembangkan perangkat lunak asisten virtual untuk menyediakan komunikasi yang lancar dan efisien antara pengguna dan aplikasi.Untuk mengubah asisten suara sederhana dengan perintah statis menjadi asisten AI yang lebih canggih, aplikasi juga perlu menambahkan kemampuan untuk menafsirkan permintaan pengguna dengan penandaan cerdas dan heuristik.

2. VISI KO

MPUTER (CV)

Visi komputeradalah bidang AI yang melatih mesin untuk menafsirkan dan memahami sinyal visual.Dengan gambar digital dari kamera dan video serta model pembelajaran mendalam, komputer dapat mengidentifikasi dan mengklasifikasikan objek secara akurat, lalu merespons masukan tersebut.CV adalah bagian penting dalam menciptakan asisten virtual visual.Asisten ini dapat merespons dengan video yang dihasilkan selain suara, yang secara signifikan memperkaya pengalaman pengguna.

Visi komputer membantu mengenali dan menafsirkan bahasa tubuh, yang merupakan aspek penting dalam komunikasi.Asisten virtual visual dengan CV memanfaatkan kamera yang menyimpan data dan menggunakan deteksi wajah real-time untuk mengetahui ketika seseorang melihat layar, ini mengirimkan sinyal ke sistem, yang mengubah ucapan pengguna menjadi teks.CV juga dapat meningkatkan keakuratan pengenalan ucapan dengan membandingkan apa yang dikatakan seseorang secara verbal dengan gerakan wajah dan mulut.

7. KECERDASAN EMOSIONAL (EI)

Ketika kita berbicara tentang asisten virtual, bahasa tubuh dan emosi manusia mungkin juga memainkan peran besar selain efek suara dan visual.Kecerdasan Emosionalyang didukung AI membantu melacak perilaku non-verbal pengguna secara real-time saat berkomunikasi dan bereaksi terhadap informasi tersebut.Berkat Emotion AI, asisten virtual AI dapat memantau emosi manusia dengan menganalisis ekspresi wajah, bahasa tubuh, atau ucapan.

Emotion AI juga didasarkan pada visi komputer dan algoritma pembelajaran mesin.Teknologi pengenalan wajah menganalisis ekspresi wajah menggunakan kamera perangkat.Algoritme visi komputer mendeteksi titik-titik utama wajah dan melacak pergerakannya untuk menafsirkan emosi.Kemudian, sistem menafsirkan perasaan berdasarkan kombinasi ekspresi wajah dengan mencocokkan data yang dikumpulkan dengan perpustakaan gambar.Solusi modern seperti Affectiva atau Kairos dapat menawarkan untuk mengenali reaksi emosional berikut sebagai kegembiraan, kesedihan, kemarahan, penghinaan, jijik, ketakutan, dan kejutan.

ASISTEN VIRTUAL AI UNTUK BISNIS ANDA: KEMBANGKAN DARI AWAL ATAU GUNAKAN MODEL SIAP PAKAI?

Implementasi teknis asisten virtual untuk bisnis bergantung pada persyaratan proyek dan fungsionalitas aplikasi masa depan Anda.

Fakta bahwa Anda ingin membuat asisten virtual cerdas dengan penerapan teknologi AI tidak selalu berarti Anda perlu mengembangkan model khusus dan melibatkanpakar ilmu data.Pasar AI sedang meningkat, dan seperti di bidang pengembangan lainnya, ada alat setengah jadi di pasar yang mungkin cukup untuk menyelesaikan masalah Anda.Jadi bagaimana cara memutuskannya?

KAPAN MENGGUNAKAN API SIAP PAKAI

Dalam praktik kami, penggunaan solusi siap pakai sering kali dibenarkan jika klien menganggap AI bukan fitur inti produknya.Misalnya, jika Andamembuat aplikasi asisten keuangan, antara lain, aplikasi tersebut harus mengekstrak data dari cek dan memasukkan informasi ini ke dalam aplikasi.Dalam hal ini, modul OCR yang dibuat berdasarkan solusi yang ada mungkin cocok untuk Anda, karena lebih cepat dan hemat biaya.

Pengembangan model AI yang dapat digunakan kembali, yang disebut model dasar, (ada paradigma untuk membangun sistem AI di mana model yang dilatih pada data tak berlabel dalam jumlah besar dapat diadaptasi ke banyak aplikasi), memungkinkan penyesuaian yang mudah berdasarkan model tersebut. solusi yang ada.Contoh model awal, seperti GPT-3, BERT, atau DALL-E 2, telah menunjukkan kemungkinannya.Sekitar waktu yang sama ChatGPT memulai debutnya, kelas jaringan saraf lain, yang disebut model difusi, membuat gebrakan.Kemampuan mereka untuk mengubah deskripsi teks menjadi gambar artistik menarik pengguna biasa untuk membuat gambar menakjubkan yang menjadi viral di media sosial.

Model pondasi biasanya memiliki API untuk digunakan dan tidak memerlukan banyak data untuk penyesuaian, sehingga menjadikannya solusi yang baik untuk tugas AI sederhana seperti chatbots.

KAPAN MENGGUNAKAN PENGEMBANGAN MODEL AI KUSTOM

Yang harus Anda ingat adalah bahwa layanan siap pakai dapat menyelesaikan tugas-tugas umum dengan tingkat kualitas rata-rata, jadi ini bukan solusi jika AI adalah fitur utama produk Anda.Semakin kompleks tugas yang Anda percayakan pada AI dan semakin inovatif ide Anda, semakin besar kemungkinan kemampuan model yang ada tidak akan mampu memenuhi kebutuhan Anda.Di sinilah insinyur AI yang dapat membuat dan melatih model khusus untuk kasus Anda menggunakan teknologi terkait akan membantu Anda.

Tidak boleh dilupakan juga bahwa fitur AI tidak bisa lepas dari infrastruktur IT.Saat mengembangkan asisten AI, Anda harus memahami dengan tepat bagaimana asisten tersebut akan berinteraksi dengan pengguna Anda (aplikasi seluler, web).Pakar teknologi akan membantu Anda memilih tumpukan teknis terbaik, baik ituNode.js,PHP,Python,atau teknologi lainnya, dan juga akan menyediakan semua bagian yang diperlukan untuk menskalakan dan memindahkan fitur AI Anda ke infrastruktur di sisi server.Ini termasuk memperhitungkan beban, jumlah pengguna, dll.

TANTANGAN PENGEMBANGAN ASISTEN VIRTUAL AI

Mari kita pertimbangkan secara singkat betapa menantangnya membuat asisten virtual AI tertentu.Ini akan membantu Anda memahami apa yang harus dipersiapkan sambil menciptakan solusi khusus untuk bisnis Anda.

1. CHATBOT

Chatbot adalah jenis perangkat lunak paling sederhana yang dapat membantu menyediakan layanan bantuan virtual kepada pelanggan.Meskipun banyak yang menganggapnya paling mudah, chatbot masih bisa membuat perbedaan.Chatbots menggunakan pemrosesan bahasa alami (NLP) untuk memahami pertanyaan pelanggan dan mengotomatiskan tanggapan terhadap pertanyaan tersebut berdasarkan alur yang telah ditentukan.Chatbot AI saat ini juga memanfaatkan pemahaman bahasa alami (NLU) untuk menentukan kebutuhan pengguna dengan lebih akurat.Kemudian, mereka menggunakan teknologi AI canggih untuk menganalisis apa yang ingin dicapai pengguna.

Seperti yang telah kami sebutkan, chatbots didasarkan pada alur kerja yang telah ditentukan sebelumnya.Bagian NLP dari chatbot menentukan jenis kueri yang dimiliki pengguna dan kemudian beralih ke bagian alur yang relevan dengan permintaan tersebut.

Di MobiDev, kami bekerja dengan mesin seperti Dialogflow, Rasa, dan lainnya untuk membangun chatbot untuk domain bisnis yang berbeda.

Misalnya, Rasa adalah platform AI Percakapan Generatif terbuka yang membantu membangun asisten AI.Namun, keterlibatan pengembang masih diperlukan untuk memberikan solusi yang dapat memenuhi kebutuhan bisnis yang unik.Sistem harus dikonfigurasi dengan benar pada tahap awal, semua dialog, transisi antar elemen sistem harus dipikirkan, dll.

Selain itu, tim kami memiliki pengalaman dalam mengembangkan pembuat chatbotsolusi tanpa kodeuntuk membuat alur chatbot untuk orang-orang yang tidak memiliki keahlian coding.Solusi ini dapat digunakan oleh departemen dukungan pelanggan untuk membangun alur kerja di mana chatbot dapat membantu pelanggan secara langsung atau mentransfer mereka dengan lancar ke spesialis dukungan pelanggan.

2. ASISTEN SUARA

Setiap chatbot dapat diubah menjadi asisten suara dengan bantuan model ucapan-ke-teks dan teks-ke-ucapan.

Tantangan terbesar dalam mengembangkan solusi asisten suara terletak pada kenyataan bahwa di banyak wilayah terdapat peraturan keamanan yang melarang browser melacak dan memproses suara pengguna tanpa persetujuan mereka.Oleh karena itu, lebih baik menggunakan solusi ini dalam bentuk aplikasi.Jika kita perlu mengembangkan solusi ini di browser, kita perlu menerapkan mekanisme yang akan meminta persetujuan pengguna sebelum menggunakan suaranya (tombol persetujuan).

Penting juga untuk mempertimbangkan harga asisten suara.Jika Anda menggunakan layanan text-to-speech siap pakai, dariGoogledanAmazon, Anda akan diberi harga berdasarkan jumlah karakter yang dikirim ke layanan untuk disintesis menjadi audio setiap bulannya.Anda harus mengaktifkan penagihan untuk menggunakan text-to-speech dan akan otomatis dikenakan biaya jika penggunaan Anda melebihi jumlah karakter gratis yang diperbolehkan per bulan.Ini bisa sangat mahal, terutama jika sulit memprediksi berapa banyak karakter yang akan Anda gunakan per bulan, dan seberapa sering dan lama pengguna Anda akan berinteraksi dengan asisten.

Tentu saja, Anda dapat membuat model text-to-speech Anda sendiri, tetapi hal ini memerlukan perangkat berkualitas tinggi yang akan memproses model tersebut.

Tantangan lain yang mungkin terjadi akan muncul jika Anda mempertimbangkan dukungan multibahasa, karena setiap model memiliki sejumlah bahasa tertentu.Penting untuk mengingat aspek tersebut saat tahap perencanaan jika Anda ingin meningkatkan dan menambahkan bahasa baru di masa mendatang.

3. AVATAR AI

Avatar AI adalah jenis asisten virtual AI yang paling menarik, namun paling sulit.Teman virtual yang mirip manusia sepertiNEON Artificial Humansterlihat menakjubkan, namun pengembangan solusi semacam itu juga sangat sulit dan memerlukan banyak investasi.

Mari kita lihat lebih dekat tantangan pengembangan avatar AI dan alternatifnya.

1. DESAIN DAN ANIMASI

Saat membuat avatar AI, ada investasi besar dalam desain.Lagi pula, agar avatar terlihat realistis, perlu dibuat karakter 3D dan menganimasikan setiap posisi secara penuh (ekspresi wajah, putaran kepala, gerakan tubuh, dll.).

Fungsionalitas avatar Anda membebankan persyaratan desain tambahan.Anda harus membuat semua rangkaian gerakan dan menggambar setiap skenario, yang merupakan tugas besar bagi para desainer, terutama jika menyangkut avatar mirip manusia.

2. SINKRONISASI BIBIR DENGAN ANIMASI AVATAR

Jika Anda ingin avatar Anda berkomunikasi dengan pengguna secara real-time menggunakan suara, Anda harus memahami apa yang ada di balik penerapan teknis fungsi ini serta desainnya.Solusi sumber terbuka yang tersedia ditujukan untuk menghasilkan video dalam mode asinkron setelah memuat teks (frasa) dan dapat memerlukan waktu hingga beberapa menit untuk menerima umpan balik visual.

Anda dapat menggunakan animasi parsial seseorang, misalnya menggunakan animasi Microsoft Azure Neural Text to Speech untuk menganimasikan bibir avatar, namun Anda harus ingatefek lembah luar biasayang menciptakan perasaan menyeramkan pada pengguna saat melihat karakter super realistis. itu masih belum cukup akurat meniru seseorang.Penting untuk mengumpulkan kumpulan data dan melatih model untuk animasi dan sinkronisasi yang lebih baik.

Pilihan lainnya adalah sepenuhnya meninggalkan gagasan animasi avatar yang disinkronkan secara bibir saat audio diputar.Kita dapat membuat antarmuka aplikasi yang menarik secara grafis, misalnya mendesain avatar yang seolah-olah sedang mengetik atau menyuarakan sesuatu.Hal ini secara signifikan akan mengurangi biaya pengembangan desain dan implementasi perangkat lunak.Langkah ini akan menjadi titik awal, dan seiring berkembangnya proyek, dimungkinkan untuk beralih ke animasi yang lebih maju.

3. RENDERING

Salah satu poin penting yang secara signifikan mempengaruhi harga pelaksanaan proyek adalah fungsionalitas avatar.Fungsionalitas ini tidak menambah nilai bisnis langsung, meskipun ini adalah yang paling mahal dari sudut pandang pengembangan dan dukungan (biaya server yang akan merender avatar).Oleh karena itu, kami menyarankan untuk melihat opsi ketika avatar hanya membawa beban desain atau ketika dirender di sisi klien dalam versi yang paling sederhana.

4. PEMBANGUNAN

Ada beberapa layanan siap pakai yang dapat membantu Anda membuat avatar AI untuk bisnis Anda sepertiUneeQatauThe D-ID Live Streaming API, tetapi lisensi yang mereka berikan sangat mahal untuk startup.NVIDIAjuga berencana untuk menyediakan akses ke platform pembuatan avatarnya dalam waktu dekat, namun kami belum dapat memprediksi harga untuk solusi ini.

Tentu saja, Anda dapat membuat avatar khusus dari awal menggunakan teknologi yang ada.Misalnya, Google membuat serangkaiantemplate AI Generatifuntuk menunjukkan bagaimana menggabungkan Model Bahasa Besar dengan Google API dan teknologi yang ada dapat membantu dalam membuat avatar Karakter Berbicara 3D.Namun, Anda masih perlu membuat model ML Anda sendiri, yang memerlukan waktu untuk dikembangkan dan dilatih.Perlu juga diingat bahwa jika Anda membuat model ML khusus untuk avatar Anda, tahap pengumpulan data tambahan akan diperlukan untuk melatihnya.

Bayangkan kita telah memutuskan solusinya dan dapat melanjutkan ke langkah berikutnya, jadi Anda memilih beberapa karakter dengan animasi lip-sync.Apa berikutnya?Untuk membangun interaksi pengguna manusia dengan avatar, kita perlu mengimplementasikan backend untuk mengendalikannya.Di sini, beberapa tantangan harus diselesaikan:

  • Ucapan pengguna ke teks.Kita perlu merekam apa yang dikatakan pengguna, membersihkan rekaman dari kebisingan, dan mengubah ucapan menjadi teks.
  • bot obrolan.Kita perlu memiliki chatbot cerdas yang akan menghasilkan jawaban teks atas pertanyaan pengguna dan mengingat konteks pertukaran sebelumnya.Chatbot juga harus menghadirkan karakter dengan fitur yang dapat dikonfigurasi.
  • Output chatbot harusdiubah menjadi audio ucapandengan suara yang sesuai.Idealnya, nada suara harus dapat dikonfigurasi dan sesuai dengan emosi dalam frasa.
  • File audio suara harusdisinkronkan secara bibir dengan animasi avatartepat saat audio diputar.
  • Avatar harus memiliki beberapa animasi default dengangerakan alamisaat tidak berbicara.

Oleh karena itu, dengan anggaran terbatas untuk desain dan pengembangan 3D, lebih baik tetapkan persyaratan realistis untuk jenis tugas ini dan mulai dengan langkah kecil, secara bertahap tingkatkan avatar Anda.

Berikut tips kami:

  1. Gunakan karakter yang tidak mirip manusia,misalnya hewan, robot, dll. atau setidaknya kepala yang bisa berbicara sehingga desain dan animasinya tidak memerlukan banyak usaha.Untuk mendiversifikasi karakter, kita dapat menambahkan animasi mikro (gerakan bahu, memutar kepala secara mikro, dll.).
  2. Jika Anda belum siap berinvestasi dalam pengumpulan kumpulan data, Anda dapat membuat avatar menggunakanmodel siap pakaidan alih-alih menyinkronkan bibir, terapkansinkronisasi animasi dengan nada emosional percakapan.Misalnya, avatar Anda dapat berubah warna atau kecerahan tergantung pada latar belakang emosi.Hal-hal seperti animasi api yang menjadi lebih cerah ketika sesuatu yang baik terjadi dan memudar sebagai respons terhadap pesan-pesan sedih.
  3. Merupakan keputusan bijak untuk melepaskan gagasan sinkronisasi avatar dengan dialog.Misalnya, Anda dapat menggunakanmesin game tertentu untuk membuat avatar 2D atau 3Dyang dapat dilihat oleh pengguna, dan interaksi dengan pengguna akan dilakukan dengan chatbot.Ini dapat menjadi titik awal proyek Anda dengan rencana pengembangan lebih lanjut di masa depan.

Saat merencanakan pembuatan avatar AI, Anda harus memperhitungkan biaya pekerjaan desainer 3D, biaya dukungan satu pengguna, dan biaya pengembangan dan integrasi alat pihak ketiga.

BIARKAN MOBIDEV MEMBANTU ANDA MEMBUAT APLIKASI ASISTEN AI UNTUK BISNIS ANDA

Sebagai kesimpulan, ketika mempertimbangkan untuk memiliki asisten AI untuk bisnis Anda, penting untuk menentukan tujuan Anda, memilih platform AI yang tepat, mengembangkan logika AI, melatih sistem, merancang antarmuka pengguna, membangun dan menguji asisten, dan menerapkannya. .

Pengalaman teknologi MobiDev yang luas dan laboratorium AI internal memungkinkan kami untuk mempertimbangkan penerapan bagian pengembangan AI dan infrastruktur untuk pengoperasiannya.Pendekatan ini membantu membangun solusi paling efektif berdasarkan tugas bisnis Anda dan biaya pengembangan.

Tim kami menerapkan pendekatan yang kompleks dan tidak hanya mengembangkan perangkat lunak.Kami meneliti domain bisnis Anda secara mendetail dan membantu menyempurnakan ide Anda untuk mendapatkan solusi yang benar-benar bermanfaat bagi bisnis Anda dan memungkinkannya berkembang di masa depan.Jika solusi siap pakai yang memenuhi kebutuhan Anda tersedia, kami akan mengintegrasikannya, dan jika tidak, kami akan membuat solusi khusus berdasarkan pengalaman bertahun-tahun dan keterampilan terbaik para pengembang kami.

Komentar