Transformer-XL- ի թեթև ներածություն

Լեզու ուշադիր մոդելավորման համար նոր տեխնիկայի ամփոփում, որն աջակցում է երկարաժամկետ կախվածությանը:

Նախապատմություն

Վերջերս լեզվով մոդելավորվել է `օգտագործելով չստուգված ուսուցման մեթոդներ, ինչպիսիք են ELMo- ն և BERT- ը: Այնուամենայնիվ, այն շարունակում է մնալ մարտահրավեր `նյարդային ցանցերը պատշաճ կերպով հագեցնելու երկարատև կախվածությամբ:

Վերջին մոդելները մշակվել են ուշադրության մեխանիզմով `օպտիմալացման օպտիմալացման համար, - գործ ունենալով անհետացող գրադիենտի հետ - և հնարավորություն տալ սովորելու երկարաժամկետ կախվածության: Այնուամենայնիվ, այս դեպքերում ենթատեքստը հաստատուն է, ուստի մոդելը չի ​​կարող երկարաժամկետ կախվածություն գրավել և տառապում է խնդրից, որը հայտնի է որպես համատեքստի մասնատում:

Համատեքստի մասնատումը վերաբերում է այն դեպքերին, երբ մոդելը չունի անհրաժեշտ համատեքստային տեղեկատվություն առաջին մի քանի խորհրդանիշները կանխատեսելու համար `համատեքստի ընտրության ձևի պատճառով - սովորաբար առանց նախադասության կամ իմաստաբանական սահմանների հարգանքի:

Ավելին, նախորդ մոդելները չեն պաշտպանում դասընթացների ընթացքում տեղեկատվության հոսքը հատվածների մեջ և օգտագործում են ֆիքսված ենթատեքստի երկարություն, ինչը նշանակում է, որ մոդելի համար տեղ չկա երկարաժամկետ կախվածություն գրավելու համար:

Լեզուների մոդելավորման համատեքստում, թաքնված վիճակները կարող են օգտագործվել նորից ՝ թույլ տալով տեղեկատվության հոսքը հատվածների (մի տեսակ հիշողություն): Դա կարող է օգնել ավելի երկարաժամկետ կախվածությանն օժանդակելու և համատեքստի մասնատման հետ գործ ունենալուն: Այնուամենայնիվ, որպեսզի ճարտարապետությունը աջակցի պետության վերաօգտագործմանը, պետք է կառավարվի ժամանակավոր համախմբվածություն, քանի որ հաջորդը կքննարկենք:

Տրանսֆորմատոր-XL

Դասընթացների ընթացքում վանիլային լեզվի մոդելները արդյունավետ չեն օգտագործում համատեքստային տեղեկատվությունը, իսկ հատվածներին վերաբերվում է անհատական: Բացի այդ, հատվածայնացման ընթացքում սեմալիստական ​​սահմանները սովորաբար չեն պահպանվում, քանի որ մեթոդների մեծամասնության մեջ օգտագործվում են ֆիքսված երկարությունների ստանդարտ մանրացված հաջորդականություններ: Գնահատման ընթացքում օգտագործվում են ֆիքսված երկարության ենթատեքստեր, իսկ հատվածները վերամշակվում են զրոյից, ինչը թանկ է դառնում, չնայած համատեքստի մասնատմանը որոշ չափով անդրադառնում է: Այս հոդվածը նպատակ ունի կենտրոնանալու արդյունավետության խնդրին `ավելի լավ մոդելավորելով երկարաժամկետ կախվածությունը:

Լեզուների մոդելավորման մեջ տրանսֆորմատորային ցանցերը սահմանափակվում են ֆիքսված երկարությամբ ենթատեքստով, ուստի կարող են բարելավվել երկարաժամկետ կախվածություն սովորելու միջոցով: Հոդվածում առաջարկվում է նոր մեթոդ, որը կոչվում է Transformer-XL (նշանակում է լրացուցիչ երկար) `լեզվական մոդելավորման համար, որը տրանսֆորմատորային ճարտարապետությանը հնարավորություն է տալիս սովորել ավելի երկարաժամկետ կախվածություն` կրկնվող մեխանիզմի միջոցով `ֆիքսված երկարությունից այն կողմ, առանց խոչընդոտելու ժամանակավոր համադրությունը:

Մեթոդը տարբերվում է նախորդ նախորդ մոտեցումներից, որոնք ուղղված են երկարաժամկետ կախվածությանն օժանդակելու այլ ռազմավարություններին, ինչպիսիք են լրացուցիչ կորուստների ազդանշաններն ու հիշողության ավելացված կառուցվածքը:

Ներդրվում է հատվածի մակարդակի կրկնվող մեխանիզմ, որը հնարավորություն է տալիս մոդելին վերապատրաստման ժամանակ օգտագործել նոր թաքնված պետություններ ՝ անդրադառնալով ինչպես ֆիքսված երկարության, այնպես էլ համատեքստի մասնատման հարցերին: Այլ կերպ ասած, պատմական տեղեկատվությունը հնարավոր է նորից օգտագործել, և այն կարող է տարածվել այնքանով, որքանով թույլ է տալիս GPU հիշողությունը: Տե՛ս վերապատրաստման և գնահատման փուլերը ստորև նկարում:

Transformer-XL - վերապատրաստման և գնահատման փուլ (գործչի աղբյուր)

Թաքնված վիճակները պատշաճ կերպով օգտագործելու համար հեղինակները առաջարկում են մեխանիզմ, որը կոչվում է հարաբերական դիրքային կոդավորում, որն օգնում է խուսափել ժամանակավոր խառնաշփոթից: Ներկայիս մոդելները չեն կարող տարբերակել տարբեր շերտերի տարբեր հատվածների մուտքերի միջև դիրքային տարբերությունը: Հարաբերական դիրքի կոդավորումը լուծում է այս խնդիրը `թաքնված վիճակներում կոդավորելով դիրքային տեղեկատվության կողմնակալությունը, ինչը տարբերվում է այլ մոտեցումներից, որոնք դա կատարում են որպես մուտքային մակարդակ:

Քանի որ ներգրավված է տրանսֆորմատորային ճարտարապետություն, վերը նշված գործընթացը կատարվում է յուրաքանչյուր հիմնական վեկտորի և հարցման վեկտորի միջև հարաբերական հեռավորությունը հաշվարկելով և այն ներարկելով ուշադրության գնահատականի մեջ: Հարցման և վեկտորի միջև ուշադրության գնահատականը հանելու համար օգտագործվող տերմինների որոշման նոր պարամետրով կարող է ներառվել հարաբերական դիրքի մասին տեղեկատվությունը: Կրկնվող բաղադրիչն այժմ հագեցած է առաջարկվող դիրքային դիրքավորման ներդրմամբ և այս ամբողջ ընթացակարգը ներկայացնում է առաջարկվող տրանսֆորմատոր-XL ճարտարապետությունը:

Արդյունքներ

Transformer-XL- ն ուժեղ արդյունքներ է ստանում ինչպես բառի մակարդակի, այնպես էլ բնույթի մակարդակի լեզվական մոդելավորման համար, որը կիրառվում է մի շարք տվյալների շտեմարաններում, ինչպիսիք են WikiText-103, text8 և One Billion Word:

Առաջարկվող մոդելը համեմատվում է վանիլային մոդելի հետ, որը վերջերս օգտագործվում էր բնավորության մակարդակի լեզվով մոդելավորման համար (Al-Rfou et al., 2018), որը նաև ազդում է ավելի խորը ինքնազսպման վրա: Նկատի ունեցեք, որ վանիլային մոդելը չի ​​կարող աջակցել կախվածության երկարությունները ավելի մեծ, քան վերին հատվածի հատվածի երկարությունը:

Transformer-XL- ն իջեցնում է SoTA- ի նախկին անհեթեթության միավորը մի քանի տվյալների տվյալների վրա, ինչպիսիք են text8, enwiki8, մեկ միլիարդ բառ և WikiText-103: Բացի SoTA ներկայացումներից, հեղինակները պնդում են, որ մեթոդը ավելի ճկուն է, գնահատման ընթացքում ավելի արագ (1874 անգամ արագացում), լավ ընդհանրացնում է փոքր տվյալների տվյալների հավաքածուն և արդյունավետ է կարճ և երկար հաջորդականությունների մոդելավորման գործում: Տե՛ս ներքևի աղյուսակներում տարբեր տվյալների տվյալների վրա ձեռք բերված արդյունքների որոշ ամփոփ նկարագիրը:

Մնացած արդյունքները կարող եք ստուգել ստորև բերված ամբողջ թերթում:

Այլ առավելություններ

Թղթում ներկայացված է նաև աբլյացիայի ուսումնասիրություն ՝ ինչպես կրկնվող մեխանիզմի, այնպես էլ առաջարկվող դիրքային կոդավորման սխեմայի ազդեցությունը ուսումնասիրելու համար:

Հեղինակները առաջարկում են նաև նոր մետրիկ, որը կոչվում է Հարաբերական ազդեցության համատեքստի երկարություն, որն արդար եղանակ է տալիս համեմատելու այն մոդելները, որոնք փորձարկվում են համատեքստի երկարության հետ:

Հետագա ընթերցումներ

  • Transformer-XL. Ուշադիր լեզուային մոդելները ֆիքսված երկարության համատեքստից դուրս
  • Հարվարդի NLP Group- ի «Annotated Transformer» - ը
  • Ուշադրության ուղեցույց ՝ Լիլիան Վենգի կողմից
  • Ուշադրությունն այն ամենն է, ինչ ձեզ հարկավոր է
  • Թղթի հետ կապված կոդերի պահեստ (TensorFlow և PyTorch)
  • Նիշերի մակարդակի լեզվի մոդելավորում `խորքային ինքնազբաղմամբ

Եթե ​​բավարար հետաքրքրություն է արտահայտվում, գուցե ես գայթակղված լինեմ ՝ պատրաստելու համար կոդային քայլ առ քայլ այս աշխատանքի համար: Այն պարունակում է բազմաթիվ տարբեր բաղադրիչներ, որոնք կարող են հետաքրքիր և օգտակար լինել NLP պրակտիկայով զբաղվողների և հետազոտողների համար: