W 2020 roku polskich użytkowników systemu iOS zelektryzowała wiadomość o poszukiwaniach przez Apple nowych pracowników na stanowisko „Annotation Analyst”. Czy to znaczy, że Siri będzie mówić po polsku?
Biuro w Irlandii zatrudniło nowych pracowników posługujących się biegle językiem chorwackim, czeskim, flamandzkim, chorwackim, czeskim, flamandzkim, greckim, węgierskim, rumuńskim, słowackim, ukraińskim lub polskim. Z kolei biuro Apple w Singapurze zatrudnia osoby, które biegle posługują się językiem indonezyjskim i wietnamskim. Mieli być odpowiedzialni za odpowiedni trening głosowego asystenta, w zakresie komunikacji. Innymi słowy, rozumienia niuansów kulturowych dla danego języka. Czy to znaczy w praktyce, że możemy się spodziewać wkrótce Siri po polsku?
W naszym kraju pojawiły się liczne prognozy, spekulacje. Nadzieje rosły z każdym kolejnym miesiącem. Dziś mamy już czerwiec 2021 roku, czy to już czas by spodziewać się od firmy Apple konkretnych informacji na temat Siri w języku polskim? Z pewnością nasze oczekiwania wobec tej marki nie maleją, a wręcz rosną.
Asystent głosowy Apple, być może aktualnie jest najbardziej znany obok asystenta Google. Siri jest jednak starszy, bo pojawił się w 2011 roku.
Obecnie asystent Siri dostępny jest w ponad 20 językach. Mniejsze kraje europejskie zazwyczaj nie mają rodzimych opcji językowych dla asystentów głosowych. Jednak nowe oferty pracy Apple sugerowały, że Siri może wkrótce obsługiwać kolejne języki w tym nasz polski. Dla wielu komentatorów ta sytuacja wydawała się jasno wskazywać, że będziemy mieć własną wersję Siri.
Czekając na Siri po polsku, na rynku asystentów cyfrowych da się zauważyć kilka ważnych trendów, które kształtują rozwój asystentów głosowych. Sprawiają one, że nasze oczekiwania wobec nowych aktualizacji są coraz wyższe.
Popularność asystentów głosowych rośnie już od kilku lat i nie zwalnia tempa. Firma Statistica donosi, że do 2025 roku w użyciu będzie 8,4 miliarda urządzeń z wbudowanym cyfrowym asystentem. A rynek asystentów głosowych będzie wart 27,16 bilionów dolarów.
Big data i rozwój sztucznej inteligencji
W trend mocno wpisuje się dynamicznie rozwijająca się branża sztucznej inteligencji. Wypracowanie odpowiednich funkcjonalności dla asystenta głosowego stało się wykonalne i możliwe dzięki kilku istotnym technologicznym osiągnięciom.
Integracja Big Data i algorytmów sztucznej inteligencji pozwoliły obrać pionierski kierunek rozwoju. Nowa gałąź technologiczna umożliwiła wypracowanie reguł działania aplikacji, których nie można było uzyskać w tradycyjnym podejściu do programowania. Przede wszystkim to dzięki ogromnej ilości danych, które każdego dnia spływają do Internetu, algorytmy dopracowują wzorce odpowiedzialne, za coraz lepszą skuteczność asystentów głosowych. Z takiego bogactwa informacyjnego korzysta z pewnością firma Google.
Dzięki integracji zasad NLP (Natural language processing), statystycznych reguł, technologii i ogromnej bazy danych, algorytm zdolny jest do rozpoznawania różnic w zakresie fleksji, intonacji, wymowy, gramatycznych niuansów. Algorytm staje się coraz bardziej wrażliwy na szeroki zakres akcentów i wad wymowy.
Słowniczek: (NLP to pod dziedzina lingwistyki, informatyki i sztucznej inteligencji zajmująca się interakcjami między komputerami a ludzkimi językami. Główne wyzwania w NLP to rozpoznawanie mowy, rozumienie języka, a także jego generowanie.)
Niedoskonałości asystentów głosowych
Tym, co jak dotąd powstrzymuje wielu internautów przed regularnym używaniem asystenta głosowego, jest jego zawodność. Regionalne akcenty i wady wymowy mogą zakłócić rozpoznawania słów, a hałas w tle może być trudny do odfiltrowania przez algorytm.
Taka sytuacja spotkała Apple, który jako pierwszy w 2011 zabronował asystenta głosowego Siri. Wielu użytkowników wyraziło frustrację w odpowiedzi na słabą zdolność do prawidłowego zrozumienia i interpretacji poleceń głosowych.
Skąd biorą się umiejętności językowe ?
Na dokładność asystenta wpływa wiele czynników jak hałas w tle, czas występowania słów i specyficzna terminologia. Czynniki te sprawiają, że dokładność jest trudna do osiągnięcia.
Ludzie uczą się rozpoznawania języka od dziecka. Wpierw słuchając mowy mamy. Jej fleksji, intonacji, wymowy. Mózg wówczas tworzy wzorce i połączenia na podstawie tego, jak używają języka rodzice. Z czasem wiele kontekstów użycia danej frazy staje się dla nas automatycznie jasne.
Algorytmy maszynowego uczenia również potrzebują odpowiedniego przeszkolenia. Jednak wymagają znacznie większej ilości różnorodnych przykładów, zawierających najlepiej wszystkie możliwe sytuacje, wszystkie możliwe odmiany gramatyczne, szumy, konteksty. Dlatego stosowanie nowych technologii i ogromnej bazy danych jest konieczne, by można było w odpowiedni sposób przystosować algorytm do niuansów występujących w danym języku.
Stąd nie wszystkie języki i regiony doczekały się swojej wersji.
Jakie funkcjonalności asystenta głosowego przekonują nas do ich regularnego stosowania.
Na całym świecie wraz z dynamicznym rozwojem maszynowego uczenia pojawia się równocześnie coraz więcej połączonych ze sobą urządzeń, w których rozpoznawanie głosowe jest kluczową funkcją.
W praktyce okazuje się, że wprowadzanie głosowe jest po prostu bardziej wydajną formą przetwarzania danych: człowiek potrafi wypowiedzieć średnio 200 słów na minutę, ale może napisać tylko 60. Jest też bardziej naturalny, przez co wymaga mniej wysiłku.
To, co można powiedzieć o nas samych to fakt, że jesteśmy coraz bardziej zajęci. Musimy być skuteczniejsi, szybsi, efektywniejsi. Technologie, które nas w tym wspierają, stają się coraz bardziej popularne.
Nie raz wybierałem wiadomość głosową, zamiast tekstowej. Wszystko zmierza w kierunku funkcjonalności, które są bardziej naturalne i wygodniejsze w przetwarzaniu treści. A więc jak długo jeszcze będziemy używać palców do wyklinania wiadomości ?
Komunikacja z asystentem wpisuje się w ten trend.
Dodatkowo wirtualni asystenci nie powinni być postrzegani jako gadżet przeznaczony dla prywatnych osób. Przedsiębiorcy także mogą go skutecznie wykorzystywać. Przykładowo, wirtualny asystent może pełnić rolę dostępnego asystenta z encyklopedyczną wiedzą. Wirtualni asystenci oszczędzają czas dzięki automatyzacji takich działań jak organizacja spotkań, sprawdzenie stanów magazynowych, weryfikacje informacji, czytanie wiadomości, podczas gdy przedsiębiorca zajmuje się czymś innym.
Istnieją sektory, w których głos jest jedynym możliwym sposobem komunikacji, na ogół, pozwala uwolnić obie dłonie i wzrok, dla innej ważnej czynności wykonywanej równolegle.
Czego można spodziewać się po asystencie Siri w języku polskim?
- będzie wykonywał zadania i dostarczał informacji w odpowiedzi na pytania użytkownika
- dostęp do asystenta za pośrednictwa iPhona, iPada, AppleWatch, HomePod, komputerów Mac i Apple TV.
- a także będzie dostępny w Apple CarPlay (jest to system informacyjno-rozrywkowy dla samochodów), oraz za pośrednictwem bezprzewodowych słuchawek AirPod.
- będzie rozpoznawał kontekst, odmianę w liczbie pojedynczej, mnogiej, odmian przez przypadki, synonimy (podobnie jak obecnie robi to konkurencyjny algorytm Google)
- zarządzać podstawowymi zadaniami, takimi jak poczta elektroniczna, listy rzeczy do zrobienia i kalendarze.
Coraz wyższe oczekiwania wobec firmy Apple.
Oprócz Apple, na rynku asystentów głosowych bardzo dynamicznie rozwijają się inne marki jak Google Voice, Amazon Alexa, Microsoft Cortana. Algorytmy Google proponują polskim użytkownikom polską wersję asystenta. Na chwile obecną są w stanie rozpoznawać kontekst, odmianę w liczbie pojedynczej, mnogiej, odmiany przez przypadki, synonimy. Komunikacja między użytkownikiem a algorytmem, w celu funkcjonalnego zarządzania sprzętem wymaga od algorytmu precyzyjnego rozpoznania różnorodnych odmian, jakie są stosowane potocznie w języku polskim.
Czy Siri zdoła dogonić czołowego konkurenta? Czy firma Google zdoła się utrzymać na podium?
Wszelkie najnowsze dane oraz prognozy statystyczne wskazują, że asystent Google jeszcze bardziej umocni swoją pozycję lidera na rynku asystentów głosowych.
Według Ovum, do 2024 roku „Google Assistant zdominuje rynek urządzeń obsługujących głosową sztuczną inteligencję z 23,3% udziałem w rynku, a następnie Bixby firmy Samsung (14,5%), Siri firmy Apple (13,1%), Alexa firmy Amazon (3,9%) i Cortana firmy Microsoft (2,3%).
Firma Google chwali się, że od maja 2017 jej algorytmy maszynowego uczenia osiągnęły wskaźnik poprawności 95% w języku angielskim. Jest to obecnie najwyższa dokładność spośród wszystkich asystentów głosowych. Innymi słowy, wskaźnik błędu wylicza się na 4,9%, co czyni Google pierwszym z grupy, który spadł poniżej progu 5%. To czyni go niemal równie skutecznym co człowiek, w rozpoznawaniu języka.
Google postawił bardzo wysoko poprzeczkę w zakresie obsługiwania języków i dostępności różnych funkcjonalności dla asystenta głosowego. Apple będzie musiał zrobić o wiele lepiej, jeśli chce rozszerzyć udział w rynku Siri.
To, co czyni Siri wyjątkowe, to dostęp do asystenta w całym ekosystemie proponowanym przez Apple. Ergonomia i funkcjonalność, całego systemu jest tym, co skłania użytkowników do dodatkowych inwestycji w urządzenia Apple. Cały ekosystem Apple sprawia, że Siri jest wszędzie tam gdzie użytkownik. W drodze, w domu, a dla niektórych, dosłownie na ciele. To daje Apple ogromną przewagę.
Między innymi dla tej ergonomii użytkownicy systemu iOS wciąż czekają na Siri w języku polskim.
Użytkownicy spodziewają się, że nowa opcja w języku polskim będzie co najmniej tak samo dobrze rozpoznawalna jak w innych językach.
Wiele czynników utrudnia satysfakcjonujący rozwój asystentów głosowych w języku polskim. Mam na myśli zawiłości gramatyki języka polskiego. Pamiętajmy również o standardach, z których słynie Apple. Cele i wartości, które czyniły ją wyjątkową na tle innych szybko rozwijających się gigantów.
Cyfrowe doświadczenia, które dostarczają nam wirtualni asystenci, są aktualnie uważane za jednym z najważniejszych osiągnięć technologicznych. Najbardziej obiecujących trendów konsumenckich. Czas pokaże, jak będzie zmieniać się sytuacja na rynku wraz z kolejnymi ulepszeniami i aktualizacjami różnych systemów.