6 խնդիր AI- ի առջև ծառացած է խոսքի ճանաչման մեջ

Բոլոր խոշոր ընկերությունները ներդրումներ են կատարում ձայնի ճանաչման համար, և աշխարհը դանդաղորեն, այնուամենայնիվ, կայուն կերպով հարմարվում է Արհեստական ​​ինտելեկտի նոր տեխնոլոգիայի (AI): Ուրեմն ինչու՞ է այդքան երկար տևում, ինչու՞ այն մեր օրվա առօրյայի մաս չի կազմում: Ահա 6 պատճառները:

Դուք գնում եք խանութ `փնտրելու ապրանքի որոշակի գույն և ապրանքանիշ: Դուք աշխատակցից հարցնում եք, թե արդյոք ձեր ցանկալի արտադրանքը մատչելի է: Աշխատակիցը գնում է պահեստ, ստուգում է իր գույքագրումը ապրանքի համար, իսկ որոշ ժամանակ անց վերադառնում է, միայն թե ձեզ ասել է, որ ձեր ապրանքը այլևս հասանելի չէ:

Հիմա պատկերացրեք սա, մտնում եք նույն խանութը և փոքրիկ սարքի մասին ասում այն ​​ապրանքը, որը դուք ցանկանում եք գնել: Մեկ վայրկյանում ձայնը պատմում է ձեր արտադրանքի ճշգրիտ առկայությունը և, եթե այն անհասանելի է, մանրամասներ է տալիս այն կետերում, որտեղ առկա է ապրանքը:

AI սարքը դա անում է ներքին սկանավորմամբ ՝ թվային գույքագրման բոլոր համակարգերի միջոցով: Արժեքի նյութատեխնիկական ապահովագրության և առավել կարևորագույն հարմարության հետ կապված բազմաթիվ օգուտներ, ինչու՞ դեռ խոսքի ճանաչման արվեստը և անձնական օգնականները չեն կատարելագործվել:

Գիտությունը հսկայական քայլեր կատարելով ձայնային ալիքի ճանաչման գործում `մենք նայում ենք մի քանի հիմնական խնդիրների, որոնք հետազոտողները բախվում են տեքստի խոսքը վերծանելիս:

Աղմուկ

Ձայնագրման սարքերը հայտնաբերում են ձայնային ալիքները, որոնք առաջանում են խոսքի միջոցով: Սենյակների ֆոնային աղմուկները դժվարացնում են համակարգերին հասկանալ և տարբերակել հյուրընկալող ձայնի առանձնահատուկ ձայնային ալիքները: Սա խանգարում է սարքերի կողմից հավաքված ձայնին ՝ շփոթեցնելով և սահմանափակելով դրա մշակման ունակությունը:

Էխո

Էխոները հիմնականում ձայնային ալիքներն են, որոնք արտացոլվում են տարբեր մակերևույթների, ինչպիսիք են պատերը, սեղանները կամ այլ կահույք: Սա հանգեցնում է ձայնային ալիքների անկանխատեսելի վերադարձի դեպի ընկալիչների ՝ դրանով իսկ նվազեցնելով պարզությունը:

Շեշտադրումներ

Յուրաքանչյուր լեզվով շեշտադրումների լայն շրջանակը ևս մեկ գործոն է, որը հանգեցնում է խոսքի ճանաչման դժվարությունների: Եթե ​​միևնույն բառը կարող է արտասանվել մի շարք տարբեր եղանակներով, նույն բառի վանկերն ու հնչյունաբանությունը հակված են տարբեր լինել, ինչը դժվարացնում է մեքենայի մշակումը:

Նմանատիպ հնչյուններ

Նման հնչեղ բառերն ու արտահայտությունները կարող են կանխել ձայնային հաղորդագրության պատշաճ կոդավորումը և վերծանումը: Օրինակ ՝ «Եկեք քանդենք մի հաճելի լողափ» և «Եկեք ճանաչենք խոսքը» հնչյունականորեն շատ նման են և կարող են հեշտությամբ շփոթել սարքը:

Մեքենայի սխալ

Ձայնի հայտնաբերման ճշգրտության մակարդակն ունի սխալի բարձր մակարդակ: Մեքենաները մինչ այժմ բախվում են մոտ 8% -12% սխալների, ինչը ավելին է, քան երկու անգամ ավելին, քան մարդը կատարում են իրենց ամենօրյա խոսքի մեջ: Հավաքված տվյալների կոդավորման հարցում սխալները շատ կարևոր են կատարման համար, քանի որ ձայնային ձայնագրման սարքերի վրա գործելու առաջին քայլն է:

Խզված խոսք

Մեր ամենօրյա խոսակցություններում բառերի համախմբումը նշանակում է, որ շատ բառեր և արտահայտություններ միաձուլվում են: Սա անհամապատասխան է մեքենային և ձայնին տեքստի ճանաչման համար, քանի որ դժվարացնում է հատուկ բառեր կամ արտահայտություններ ճանաչելը, որոնք կազդի սարքի հետևողական արձագանքի և գործողությունների վրա:

Ընդհանուր առմամբ, անկախ նրանից, թե որքանով են զարգացած այդ մեքենաները, վերը նշված գործոնները կշարունակեն խոչընդոտ հանդիսանալ դեպի ԱՀ օգնականների առաջընթացը: Այնուամենայնիվ, արագությունը, որով զարգանում են գիտությունը և տեխնոլոգիաները, բոլոր խոշոր ընկերությունները կենտրոնանում են ձայնի ճանաչման օպտիմալ սարքերի ստեղծման վրա, և վաղ թե ուշ դրանց ծալքերն արդուկվելու են, և մենք բոլորս կունենանք ձայնային հնարավորություն ունեցող ռոբոտ, որը կաշխատի մեր տները ինչպես նաև մեր կյանքը:

Իմացեք ավելին RAF 100 միջոցառման և What is STEM- ի մասին

Համոզվեք, որ հետևեք մեզ LinkedIn- ում `մեր բացառիկ բովանդակությանը մուտք ունենալու համար: # raf100event #WhatIsSTEM