iphone.jpg

Az Apple virtuális hangalapú vezérléssel működő asszisztense, Siri 2011-ben jelent meg először. Akkor még az iPhone 4S egyik fontos újításaként arról vált ismertté, hogy egyszerű, hétköznapi dolgokat lehetett vele elvégeztetni, mint például az üzenetek küldése, hívásindítás, emlékeztetők beállítása vagy éppen az online keresés, így akár arra is használható, hogy a Vulkan Vegas casino oldalára elnavigáljon a felhasználó. Bejegyzésünkben megvizsgáljuk, honnan jött Siri, milyen technológián alapul, és milyen jövő várhat rá a mostani nagy mesterséges intelligencia-lázban.

Siri rövid története

A ma Siri néven ismert rendszer egy 2003-ban, a Stanford Egyetemen indult projekt eredményeként született. A Dag Kittlaus által vezetett kutatócsoport célja egy olyan virtuális asszisztens létrehozása volt, amely hangvezérléssel képes feladatokat végrehajtani. 2007-ben hozták létre a Siri Inc. vállalatot, hogy kereskedelmi forgalomba hozzák a rendszert. Három évvel később elindították a Siri iPhone alkalmazást, ami a természetes nyelvi feldolgozást és a gépi tanulást használta a parancsok feldolgozására és értelmezésére. Ezt vásárolta meg később az Apple, és tette az akkor kiadott iPhone 4S részévé. Innentől pedig egyre inkább csak felfelé ívelt Siri pályája.

A technológia Siri mögött

A hangvezérelt, később taníthatóvá váló virtuális asszisztens több izgalmas technológiai elemet is magában foglal, ezek közül a leginkább érdekesek:

  • NLP, azaz a természetes nyelvi feldolgozás (Natural Language Processing);
  • az ML, azaz a gépi tanulás (Machine Learning);
  • AI, azaz a mesterséges intelligencia.

NLP a Siri rendszerében

A természetes nyelvi feldolgozás egy olyan technológia, amivel Siri sikere után kezdtek el egyre többen foglalkozni. Ennek a lényege, hogy a felhasználó által adott parancsot a rendszer megérti, mintha amúgy tényleg természetes módon értené. Az NLP alapja az, hogy a szervereken olyan algoritmusok futnak, amelyek elemzik az elhangzottakat és összevetik azokat a korábban elhangzott hasonló tartalmú mondatokkal. Ehhez hatalmas számítási kapacitásra van szükség, amit az Apple szerverei biztosítanak. Csak hogy egy példát nézzünk: ha szeretnénk egy emlékeztetőt beállítani, mondhatjuk, hogy „Hey, Siri, set a reminder for the meeting tomorrow at 9”. Ezt a mondatot elemzi rendszer, és beállítja az emlékeztetőt. De ha ezt a mondatot máshogy mondjuk, akkor azt is meg kell érteni. Itt jönnek képbe azok a mérnökök, akik tanították a Siri rendszert, és óriási adathalmazt hoztak létre, amiből az értelmezés megszülethet és a választ visszaküldheti a szerver. Ez az NLP lényege, hogy nem csak a mondatok szó szerinti elemzése folyik, hanem a felhasználói szándékot is megértik.

Hang szöveggé és szöveg hanggá alakítása

A Siri és az NLP rendszer működésének egyik fontos összetevője a szövegfelismerés és átalakítás. Mivel hang vezérelt rendszerről beszélünk, ezért Siri-nek az elhangzott utasítást át kell alakítani szöveggé, majd elküldeni azt a szervek felé. Ezután a kapott választ hanggá kell alakítani, illetve a parancsot is végre kell hajtani. Ez egy összetett folyamat, ami a valóságban mégis csak másodperceket vesz igénybe. A „hey Siri” parancs gyakorlatilag a hangfelismerő rendszert aktiválja a telefonon, tableten vagy számítógépen. Ennyit jelent a modern technológia.

A gépi tanulás

A gépi tanulás a modern mesterséges intelligencia tudományok alapja. A lényege az, hogy az ilyen rendszerek képesek fejlődni azáltal, hogy a felhasználó által adott adatokat elemzik, és azok alapján készítenek mintázatokat és fejlesztik algoritmusaikat. Ez hasonló ahhoz, mint amikor promptokat írunk a gpt rendszereknek: addig-addig próbálkozunk, amíg végül sikerül egy olyan promptot adni, amivel az elvárt eredményt kapjuk. A Siri mögötti gépi tanulás is hasonlóképpen működik, a használat során fejlődnek az algoritmusok, így pontosabb lesz a megértése és pontosabban hajtja végre a parancsokat.

Mesterséges intelligencia-e Siri?

Siri-t nem szokás mesterséges intelligenciának tekinteni, mivel a gép tanuláson kívül más „intelligens” képessége nincs. Mondhatjuk, hogy ez egy nagyon ’narrow’ szűklátókörű mesterséges intelligencia, aki nem képes döntéseket hozni vagy önállóan segítséget adni, mindent adatbázisból végez. Noha Siri beszél és válaszol, nem tekinthetjük a szó szoros értelmében vett mesterséges intelligenciának.

Mit tud még Siri?

Az első változat óta az Apple hangvezérlésű virtuális asszisztense nagyon sokat fejlődött. Ma már lehetőség van arra, hogy megváltoztassuk a hangját, sőt, akár még akcentust is adhatunk neki. Ha épp nincs internet, akkor még mindig vannak olyan funkciók, amelyeket offline is meg tud csinálni, mint a zenelejátszás, útbaigazítás, emlékeztetők stb. beállítása.

A legtöbbet persze online lehet kihozni a rendszerből, és most már megjelentek a személyes ajánlások is, amelyeket a szokásaink, és a parancsokból levont adatok alapján megállapított preferenciáink szerint állít össze a rendszer. Az évek során lehetőség nyílt arra is, hogy egyedi parancsokat vegyünk fel, sőt, különféle sablonok is készíthetők, így, ha vannak ismétlődő dolgaink, akkor elég lehet egyszer felvenni és beállítani azokat.

Összegzés

A Siri egyike volt az első mesterséges intelligenciának tűnő rendszereknek, és szemmel láthatóan nagyon sokat fejlődött több mint egy évtizedes élete során. A rendszer továbbra is népszerű, egyre többet tud, így az Apple még biztos nem fogja nyugdíjazni, különösen úgy, hogy a cég elkezdett jobban foglalkozni a mesterséges intelligenciával is. Biztos, hogy fényes jövő elé néznek az iOS készülékeket használók.

Ez is érdekelhet