ლამაზი ხმა - იშვიათი რამეა და მისი პატრონები მას ბუნების გულუხვ საჩუქრად და ღირებულ ინსტრუმენტად თვლიან. სასიამოვნო ტემბრი და გააზრებული მეტყველება არის მშვენიერი კომბინაცია და იშვიათი იღბალი საზოგადოებასთან მუშაობის დროს, განსაკუთრებით კი გაყიდვების სფეროში ან საჯარო გამოსვლებში.
მანქანა საუბრობს
ჩვენ ხშირად გვესმის რობოტების და აუდიო ჩანაწერების ხმები, რომლებიც ავტომატურად წარმოიქმნება ან გენერირდება საზოგადოებრივ ტრანსპორტში, საკონტაქტო ცენტრებში, საჯარო განცხადებებში, ავტომობილის ნავიგატორებში და ინტელექტუალურ გაჯეტებში. თავიდანვე ვხვდებით, რომ ეს არ არის ადამიანის მეტყველება. წინადადების წყობა, ინტონაცია, პაუზები პირველივე სიტყვიდან გვანიშნებენ, რომ გვესაუბრება რობოტი. ფრაზა შეიძლება იყოს გამართული, შინაარსი გასაგები, მაგრამ მეტყველება მაინც უსიცოცხლოდ ჟღერს. ადამიანთა უმრავლესობა ქვეცნობიერად მიიჩნევს ამ ფაქტს შემაშფოთებლად, რის გამოც უკმაყოფილო მომხმარებელი ნაკლებად არის მოტივირებული მოლაპარაკებების გაგრძელებაზე და საქონლის შეძენაზე.
გაიცანით ნატურალური „სინთეტიკა“
ციფრული ტრანსფორმარცია არის პროცესი, რომელიც გულისხმობს მომხმარებელთა საჭიროებების მუდმივ ანალიზს და წარმოადგენს მზარდ ტენდენციას ყველა სახის ვიდეო და აუდიო კონტენტის წარმოების პროცესში. არსებობს სტარტაპები, რომლებიც ქმნიან ისეთ პროგრამულ უზრუნველყოფას, რომელიც ახდენს სასიამოვნო ხმის სინთეზს - ის ისე გულწრფელად ჟღერს, რომ ცოტა ადამიანი თუ მიხვდება, რომ მისი თანამოსაუბრე ლამაზი გოგონას ნაცვლად რობოტია.
საზოგადოებამ უკვე აითვისა ხელოვნური ინტელექტის ტექნოლოგიები ისეთი «სინთეტიკური» ხმების შესაქმნელად, რომლებიც ბევრისათვის სასიამოვნოდ ჟღერს. ეს ტექნოლოგიები დამუშავებულ იქნა ბევრი მსახიობის ხმის საფუძველზე. პროგრამული უზრუნველყოფა აანალიზებს მათი მეტყველების სტილს და შემდეგ „კარნახობს“ ნებისმიერ ტექსტს. ხელოვნური ინტელექტის ხმა არა მხოლოდ ბუნებრივად ჟღერს, არამედ ზოგჯერ მოდუნებულიც კი არის. საიდუმლო მკაცრი წესების არარსებობაში მდგომარეობს - სიტყვებს შორის პაუზა არ უნდა იყოს მკაცრად განსაზღვრული, მეტყველების სიჩქარე არ უნდა იყოს მუდმივი. პროგრამის მთავარი „ხრიკი“ - იმპროვიზაციაა. შედეგი შთამბეჭდავი და რეალისტურია.
ამასთან, Alexa, Siri, Google Assistant და სხვა პოპულარული, დამხმარე მობილური პროგრამები ჯერ კიდევ ინარჩუნებენ არარეალურ ხმოვან მხარდაჭერას. განსაკუთრებული გამონაკლისია Google Duplex, რომლის ხელოვნური ინტელექტი მეტყველებს შთამბეჭდავი, სასიამოვნო ხმით.
ხელოვნური ინტელექტის ემოციები
ჩვენ ნამდვილად არ ვიცით, როგორ შეიცვლება ხმის ასისტენტის არჩევანი, მაგრამ შეგვიძლია ვივარაუდოთ, რომ მისი განვითარების ტენდენციები არ ჩამორჩება სხვა ინოვაციური ტექნოლოგიების წინსვლას. ხელოვნურ ინტელექტზე დაფუძნებული ლამაზი ხმები გაიყიდება რეკლამის, მარკეტინგის და ელექტრონული სწავლების სფეროში მომუშავე კომპანიებში. აღარ იქნება პროფესიონალი დიქტორების დაქირავების საჭიროება. ერთადერთი რაც დაგჭირდებათ, კარგად დაწერილი ტექსტია.
კარგია, რომ დიდი არჩევანი გექნებათ! აუდიტორიაზე სასურველი ზემოქმედების საფუძველზე მომხმარებელი შეძლებს აირჩიოს ყველაზე შესაფერისი სინთეზური ხმის ტემბრი. ხმა შეიძლება იყოს გამამხნევებელი, ენერგიული, დამაკმაყოფილებელი, დამამშვიდებელი, „დედობრივი“, ახალგაზრდა ან ხანშიშესული, სწრაფი ან მშვიდი. როგორ ჟღერს „მდიდარი ქალი“, „თავდაჯერებული ახალგაზრდა პროფესიონალი“, „ხელოსანი“ ან „გენიალური ბავშვი“? ჩვენ ქვეცნობიერად ვიცით, ხოლო ხელოვნურ ინტელექტს შეუძლია დაამტკიცოს და დაადასტუროს ეს ფაქტი. ისევე, როგორც წარმატებული და ცნობილი ფოტოგრაფების ნამუშევრები არქივებიდან, ასევე ხმები მალე გახდება ხელმისაწვდომი ონლაინ სივრცეში.
საინტერესოა, რომ თავად ხელოვნურ ინტელექტს შეუძლია ხაზგასასმელი სიტყვების ამოცნობა. თუ თქვენ გაატარებთ ერთსა და იმავე ტექსტს მეტყველების სინთეზატორში ორჯერ, შედეგები იქნება განსხვავებული. ასე მუშაობს მეტყველების სინთეზატორი.
ამ დრომდე ხელოვნური ინტელექტის მეტყველების სინთეზატორებს არ შეეძლოთ გრძელი მონოლოგების გენერირება. სინამდვილეში, მათ შეუძლიათ, მაგრამ შედეგები არ არის დამაჯერებელი. თუმცა, მოკლე ტექსტები - ერთი ან ორი წინადადება იდეალურია. ერთი ფრაზის შექმნაზე პროგრამას დაახლოებით 4 წამი სჭირდება. უფრო მოცულობითი ფრაგმენტის სინთეზისათვის, მაგალითად აბზაცი, უნდა დაიყოს წინადადებებზე, ხოლო ხელოვნურ ინტელექტს დასჭირდება მეტი დრო მის დამუშავებაზე.
ძალიან რთულია მიაწოდოთ მეტყველების სინთეზატორს ინფორმაციის საჭირო მოცულობა, რათა მან შეძლოს გრძნობების გამოხატვა. მსახიობებმა უნდა წაიკითხონ უამრავი ტექსტი, მათ შორის ვიკიპედია. სასწაულია, რომ ხელოვნური ინტელექტი აგენერირებს ფრაზას, რომელიც არ განსხვავდება ადამიანის ხმისგან!
რეალური თუ ბუნებრივი?
კიდევ ერთი პრობლემა, რომელიც უნდა გავითვალისწინოთ - ეთიკა. რამდენად მისაღებია, როდესაც ადამიანი ვერ ხვდება, რობოტს ესაუბრება თუ ცოცხალ არსებას?
2018 წელს Google-მა მოახდინა Duplex-ის შესაძლებლობების შთამბეჭდავი დემონსტრირება. ხელოვნურმა ინტელექტმა განახორციელა ზარი და დაჯავშნა მაგიდა რესტორან Bay Area-ში. კორპორაცია მკაცრად გააკრიტიკეს აღნიშნული ექსპერიმენტის გამო, მაგრამ რობოტიზირებული ხმის დეველოპერები თვლიან, რომ პოზიტიური შედეგის მიღწევის შემთხვევაში AI (ხელოვნური ინტელექტი) ხმის წარმოშობის გამჟღავნება არ არის საჭირო. თუნდაც მაშინ, როდესაც საქმე ეხება რეკლამას.