Transformer nədir və niyə bu qədər güclüdür?

Süni intellekt haqqında danışanda çox vaxt nəticəni görürük: sual veririk, cavab alırıq, amma arxada nə baş verdiyinin tam olaraq fərqində olmuruq. Müasir dil modellərinin arxasında duran əsas mexanizm “transformer” adlanır və bu arxitektura dil emalı qaydalarını artıq kökündən dəyişib. Bəs buna necə nail olub?

Transformer-dən əvvəl istifadə olunan modellər mətni ardıcıl şəkildə oxuyurdu. Təsəvvür edin ki, bir kitab oxuyursunuz və limitli yaddaşa sahibsiniz. Bu o deməkdir ki, hər yeni cümləni başa düşmək üçün yalnız əvvəlki bir neçə sözü xatırlaya bilirsiniz. Əgər cümlə uzundursa və əvvəlində vacib bir detal varsa, onu tez unuda bilərsiniz. RNN (Recurrent Neural Networks) və LSTM (Long-Short Term Memory) kimi modellər məhz belə işləyirdi. Onlar sözləri bir-bir oxuyur və məzmunu yadda saxlamağa çalışırdı, amma mətn uzandıqca əvvəlki məlumata çatmaq çətinləşirdi.

Transformer isə fərqli yanaşma gətirdi. Belə ki, o, digər modellərdən fərqli olaraq mətni ardıcıl oxumur, bütün məzmuna eyni anda baxır. İnsanlar kimi bir cümləni oxuyanda da sadəcə son sözü yox, ümumi məzmunu anlayır. Amma bunu riyazi hesablamalar vasitəsilə edir.

Məsələn, belə bir cümləyə göz gəzdirək: “Kartım bloklanıb, çünki şübhəli əməliyyat aşkar edilib.” Bu cümlədə “bloklanıb” sözünün səbəbi “şübhəli əməliyyat”dır. Transformer hər sözü digər sözlərlə müqayisə edir və onların arasında əlaqə dərəcəsini hesablayır. O anlayır ki, “çünki” sözü səbəb əlaqəsi yaradır və əsas informasiya həmin hissədədir. Bu mexanizmə “attention” (diqqət mexanizmi) deyilir. Sadə dildə desək, model hər söz üçün qərar verir ki, digər sözlərdən hansına daha çox diqqət etməlidir.

Bu yanaşmanın üstünlüyü xüsusilə uzun və mürəkkəb mətnlərdə ortaya çıxır. Məsələn, hüquqi bir müqavilədə belə bir cümlə yazılıb: “Əgər tərəf öhdəliyi yerinə yetirməzsə, digər tərəf müqaviləni ləğv edə bilər.” Burada şərt, hadisə və nəticə var. Transformer bu əlaqəni bir struktur kimi görür. O başa düşür ki, “yerinə yetirməzsə” şərt (risk) hadisəsi, “ləğv edə bilər” isə nəticədir. Köhnə modellər uzun sənədlərdə bu cür əlaqələri itirə bilirdi, amma transformer məsafədən asılı olmadan sözlər arasında körpü qura bilir.

Transformer necə işləyir?

Transformer-in işləmə mexanizmi əslində çox sistemlidir. Əvvəlcə mətn kiçik hissələrə, yəni tokenlərə bölünür. Sonra hər token modelin anlaya biləcəyi dilə, yəni ədədlərə çevrilir. Daha sonra həmin ədədi təmsillər bir-biri ilə müqayisə olunur və model hər sözün digərləri ilə nə qədər əlaqəli olduğunu hesablayır. Bu hesablamalar nəticəsində məzmun formalaşır. Sonda isə model növbəti sözü ehtimal əsasında seçir. O, düşünərək yox, statistik ehtimal hesablayaraq davam edir. Amma bu ehtimallar o qədər dəqiqdir ki, nəticə məntiqli görünür.

Transformer-in başqa bir üstünlüyü onun ardıcıl yox, paralel işləmə qabiliyyətidir. Köhnə modellər bir sözü bitirmədən digərinə keçə bilmirdi. Transformer isə bütün sözləri eyni anda emal edə bilir. Bu, həm sürəti artırır, həm də böyük modellərin qurulmasını mümkün edir. Məhz buna görə müasir dil modelləri milyardlarla parametrə sahib ola bilir və çox mürəkkəb tapşırıqları yerinə yetirə bilir.

Bütün bunlara baxmayaraq, transformer insan kimi düşünmür. Onun şüuru və anlayışı yoxdur. O, sadəcə sözlər arasındakı əlaqələri öyrənir və ehtimal hesablayır. Amma dilin özü artıq böyük miqdarda bilik daşıdığı üçün, dili yaxşı proqnozlaşdırmaq çox vaxt bilikli görünmək üçün kifayət edir.

Əslində bütün müasir generativ Sİ sistemlərinin mərkəzində eyni fikir dayanır: sözlər arasındakı əlaqəni düzgün hesablamaq. Transformer isə bunu effektiv üsulla həyata keçirdiyinə görə sadəcə yeni model arxitekturası deyil, yeni düşünmə mexanizmi kimi qəbul edilir.

Author

Nigar Mammadova

Consultant,
Data & AI
KPMG Azerbaijan
nigarmammadova@kpmg.az

Transformer nədir və niyə bu qədər güclüdür?

Transformer necə işləyir?

Author

Nigar Mammadova

Contact

Careers

Company