HSEda hisoblash tilshunosligi: Anastasiya Bonch-Osmolovskaya yangi magistrlik dasturida. Hisoblash tilshunosligining asosiy vazifalari va ularni hal qilish usullari Hisoblash tilshunosligi kurslari.

« MIPTda kafedraning ochilishi bizga nafaqat yordam berish imkonini beradi ularning talabalar.

Bizning maqsadimiz FIVTda Rossiyada kompyuter fanlarini eng yaxshi o'qitishdir.
Svetlana Luzgina, korporativ aloqa xizmati.


Kafedra mudiri: Vladimir Pavlovich Selegey, ABBYY lingvistik tadqiqotlar direktori

FIVTning Hisoblash tilshunosligi kafedrasi 2011 yilda tashkil etilgan Rossiya kompaniyasi ABBYY, yetakchi dasturchilardan biri dasturiy ta'minot sun'iy intellekt sohasida, xususan, hujjatlarni tanib olish va tabiiy tilni qayta ishlash. Kafedrada innovatsion kompyuter til texnologiyalarini, xususan, matnni sintaktik va semantik tahlil qilish uchun ABBYY Compreno texnologiyasini ishlab chiqishda samarali ishlay oladigan mutaxassislar tayyorlanadi.

So'nggi o'n yillikda butun dunyoda hisoblash tilshunosligi faol rivojlanmoqda. Bu Internet ta'sirining kuchayishi va tabiiy til interfeysiga ega ko'plab yangi texnik qurilmalarning paydo bo'lishi bilan bog'liq. Ko'p tilli ma'lumotlarni qidirish, mashina tarjimasi, bilimlarni ajratib olish, nutqni aniqlash va boshqalar kabi texnologiyalar ayniqsa jadal rivojlanmoqda.Rossiyada hisoblash tilshunosligiga hozirgacha ta'lim tizimida etarlicha e'tibor berilmagan. Shu sababli, dunyoda ilmiy tadqiqot hisoblash tilshunosligida rus tili kam ifodalangan.

MIPTdagi Hisoblash tilshunosligi ixtisosligi MIPT tomonidan taqdim etilgan chuqur texnik ta'limga asoslangan. Baza bo'limidagi mashg'ulotlar ABBYY ofisida o'tkaziladi, u erda kompaniya xodimlari tillarni avtomatik qayta ishlash, umumiy va kompyuter leksikografiyasi, korpus lingvistikasi, shuningdek, dasturiy ta'minotni ishlab chiqish sohasida Kompyuter fanining ajralmas fanlaridan dars beradi.

Kafedraning vazifalaridan biri talabalarni ilmiy hayotga faol jalb etishdir. Hisoblash tilshunosligining hozirgi global “tendensiyalari”dan xabardor bo‘lishgina emas, balki global jarayonning bir qismi bo‘lish ham muhimdir. Kafedra talabalari Rossiya Davlat gumanitar universiteti bilan hamkorlikda ABBYY Compreno texnologiyasini ishlab chiqishda faol ishtirok etadilar. tadqiqot loyihasi rus tilidagi internet resurslari asosida rus tilining umumiy internet korpusini (GIKRYA) yaratish to'g'risida.

Kafedraga qabul ham bakalavriat, ham magistraturaning birinchi kursi uchun tanlov natijalariga ko‘ra amalga oshiriladi. Moskva fizika-texnika institutining barcha fakultetlarining bakalavrlari, shuningdek, boshqa oliy ta'lim muassasalari. Qabul qilish mantiqiy-algoritmik masalalarni yechish va kafedra rahbariyati bilan suhbat natijalari asosida amalga oshiriladi.

Agar siz bo'lim uchun intervyu olishni istasangiz yoki savol bermoqchi bo'lsangiz, yozing [elektron pochta himoyalangan]. ABBYY da ko'rishguncha!

Demak, hisoblash tilshunosligi yosh, lekin juda istiqbolli fandir. LEKIN asosiy xususiyat bu fanning jihati shundaki, u fanlararo deb hisoblanadi, ya'ni dasturlash va tilshunoslik chorrahasida joylashgan muammolarni o'rganadi. Bu sohada to‘laqonli mutaxassis bo‘lish uchun esa matematikani ham, tilshunoslikni ham yaxshi bilish kerak.

O'quv dasturlari o'z hayotini IT sohasidagi lingvistik ishlanmalar bilan bog'lashni xohlaydigan filologlar uchun va matnni aniqlash tizimlari, tarjima dasturlari va boshqalar ustida ishlashni istagan matematiklar uchun dasturlarga bo'lingan. Biz ikkinchi variantga e'tibor qaratamiz.

Men darhol ta'kidlamoqchimanki, Rossiyada bunday magistrlik dasturlari bir nechtasi bor va odatda ular tilshunoslikni rivojlantirish bilan shug'ullanadigan kompaniyalar tomonidan nazorat qilinadi. Hisoblash tilshunosligiga bag'ishlangan dasturlarning aksariyati poytaxtlarda joylashgan.

Menga eng qiziq tuyulgan magistraturadan boshlayman. U Sankt-Peterburgda, San'at va gumanitar fanlar bo'yicha axborot tizimlari kafedrasida Sankt-Peterburg davlat universiteti bazasida joylashgan. Darhol ta'kidlashni istardimki, kafedra Gumanitar fanlar fakultetida joylashgan, ammo u dasturchilar uchun mo'ljallangan. Ta'lim dasturi "Gumanitar bilimlar muhandisligi" deb nomlanadi. Magistratura dasturining maqsadli maqsadi (saytdan iqtibos keltiraman) "Til muhandisligi, gumanitar bilimlarni olish texnologiyalari yo'nalishi bo'yicha ixtisoslashgan intellektual axborot texnologiyalari sohasida ilmiy-tadqiqot va loyiha ishlarida ishtirok etishga qodir mutaxassislarni tayyorlash. matn oqimi, ontologik muhandislik."

U erga kirish uchun siz matematika, dasturlash asoslari va (bir oz) tilshunoslik bo'yicha savollarni o'z ichiga olgan yozma testdan o'tishingiz kerak. Matematiklar oxirgi fan bo'yicha savollardan qo'rqmasliklari kerak: adabiyotlar ro'yxatiga ko'ra, kirish imtihonlarini topshirish uchun "Tilshunoslikka kirish" deb nomlangan ikki yoki uchta oddiy kitob etarli bo'ladi. O'z manbalaridan bildimki, u buni nazorat qiladi ta'lim dasturi Yandex kompaniyasi, ammo bu haqda magistratura veb-saytida aytilmagan.

Men gaplashmoqchi bo'lgan ikkinchi magistratura Moskva shahrida MIPT Innovatsiyalar va yuqori texnologiyalar fakulteti (FIHT) tasvirni aniqlash va matnga ishlov berish bo'limida joylashgan. U 2006 yilda ABBYY tomonidan tashkil etilgan. Ta'rifga ko'ra, ushbu bo'lim tomonidan taklif qilinadigan bir nechta magistratura dasturlari orasida "Intellektual tizimlar" va "Mashinani o'rganish usullari" yo'nalishlari asosan hisoblash tilshunosligiga tegishli. U yerga o‘qishga kirish uchun siz nafaqat kirish imtihonini topshirishingiz, balki ABBYY xodimlari bilan suhbatdan ham o‘tishingiz kerak. Shunday bo'lsa-da, ABBYY keyinchalik bitiruvchilar ularga ishlash uchun borishlarini kutmoqda.

Va men sizga aytib beradigan oxirgi magistratura dasturi “Hisoblash tilshunosligi” deb nomlanadi va Oliy Iqtisodiyot maktabining filologiya fakultetida joylashgan. Men olgan ma'lumotlarga ko'ra, u Moskvada va HSE ning Nijniy Novgorod filialida mavjud. Universitet vakillarining fikricha, bu dastur nafaqat matematiklar, balki boshqa asosiy ma’lumotga ega bitiruvchilar uchun ham mos keladi. Ta'lim gumanitar fanlar bitiruvchilarini tayyorlash uchun mo'ljallangan dasturlash kurslarini va matematiklar uchun mo'ljallangan umumiy tilshunoslik kurslarini o'z ichiga oladi.

Ushbu magistratura dasturiga kirish uchun siz imtihon topshirishingiz kerak xorijiy til va portfelni tuzing, unda motivatsiya xati va bo'lajak talaba haqida ma'lumot bo'lishi kerak. Siz o'zingizning kasbiy qiziqishlaringiz, nashrlaringiz, qilgan amaliyotlaringiz va boshqalar haqida gapirishingiz kerak bo'ladi. O‘qituvchilar Filologiya fakulteti, Universitet miqyosidagi Oliy matematika kafedrasi, Amaliy matematika va informatika kafedrasi va Yandex asosiy bo‘limi xodimlari bo‘ladi.

Umuman olganda, kompyuter tilshunosligini o'rganishga qaror qilgan bitiruvchilar tanlovga ega. Kichkina bo'lsa-da, lekin menimcha, kelajakda bunday dasturlar ko'p bo'ladi.

O'ylaymanki, bu mening sharhimning oxiri.
Maqolani tayyorlashda yordam bergani uchun men Yandex va Google-ga, ABBYY rasmiy veb-saytiga, shuningdek, postda muhokama qilingan universitetlarning veb-saytlariga minnatdorchilik bildiraman.

"Arxe" madaniy-ma'rifiy markazi sizni Aleksandr Chedovich Piperskiyning "Kompyuter tilshunosligi" ma'ruzalari kursiga taklif qiladi.

Birinchi ma'ruza mavzusi: “Kompyuter lingvistikasining asosiy vazifalari va ularni hal qilishda yondashuvlar”.

Mashina tarjimasi, imloni tekshirish, matnni tasniflash, nutqni aniqlash va boshqalar: bularning barchasi hisoblash tilshunosligining vazifalari. Siz ularni hal qilishingiz mumkin turli yo'llar bilan: yoki odamning til bilan qanday ishlashiga taqlid qilishga urinish yoki hamma narsani katta ma'lumotlar bilan hal qilish mumkinligiga umid qilish. Ammo tabiiy tilni avtomatik tarzda qayta ishlash oson emas va bu yo'lda juda ko'p qiyinchiliklar mavjud. Muammolar orasida omonimiya (bir xil so'z turli narsalarni ataganda), sinonimiya (aksincha, bir xil so'z turli xil so'zlar bilan atalsa) va biz oddiy tilda hatto e'tibor bermaydigan inson tillarining boshqa xususiyatlarini o'z ichiga oladi. hayot.

O'qituvchi haqida:
, filologiya fanlari nomzodi, Rossiya Davlat gumanitar universiteti Tilshunoslik instituti dotsenti, Milliy tadqiqot universiteti qoshidagi Filologiya fakulteti ilmiy xodimi, Oliy iqtisodiyot maktabi, “Tillarni loyihalash” kitobi muallifi (Alpina Non- Badiiy adabiyot, 2017).

“Kompyuter tilshunosligi” ma’ruza kursi haqida:

Hisoblash tilshunosligi nazariya va amaliyot chorrahasida jadal rivojlanayotgan sohalardan biridir. Biz har kuni hisoblash tilshunosligining yutuqlariga duch kelamiz: bu mashina tarjimasi, Internetda qidiruv, ovozli yordamchilar va boshqalar. Har bir bunday mahsulot ortida tilshunos va dasturchilarning jiddiy mehnati turibdi. Kurs davomida biz kompyuter tilshunosligi tarixi va uning eng mashhur usullari haqida gapiramiz, shuningdek, ular imloni tekshirish yoki yangiliklarni mavzular bo'yicha tasniflash kabi muhim amaliy muammolarni qanday hal qilishlarini ko'ramiz.

Oliy Iqtisodiyot maktabining Filologiya fakultetida hisoblash tilshunosligiga bag‘ishlangan yangi magistratura dasturi ishga tushirilmoqda: u gumanitar-matematika yo‘nalishi bo‘yicha asosiy ma’lumotga ega bo‘lgan abituriyentlarni hamda ilm-fanning istiqbolli yo‘nalishlaridan biri bo‘yicha masalalarni yechishga qiziqqan barchani qabul qiladi. . Uning rahbari Anastasiya Bonch-Osmolovskaya Nazariya va amaliyotga kompyuter tilshunosligi nima ekanligini, robotlar nima uchun odamlarni almashtirmasligini va kompyuter tilshunosligi bo‘yicha HSE magistratura dasturida nimalar o‘rgatilishini aytib berdi.

Ushbu dastur Rossiyada deyarli yagona. O'zingiz qayerda o'qigansiz?

Men Moskva davlat universitetining nazariy va fakultetida o'qiganman amaliy tilshunoslik filologiya fakulteti. Men u erga darrov yetib bormadim, dastlab rus bo'limiga o'qishga kirdim, lekin keyin tilshunoslikka jiddiy qiziqib qoldim va kafedrada shu kungacha saqlanib qolgan muhit meni o'ziga tortdi. Eng muhimi, o'qituvchilar va talabalar o'rtasidagi yaxshi aloqa va ularning o'zaro manfaatdorligi.

Farzandli bo‘lib, ro‘zg‘or tebratishga majbur bo‘lganimda tijorat tilshunosligi sohasiga kirganman. 2005 yilda ushbu faoliyat sohasi nima ekanligi aniq emas edi. Men turli lingvistik kompaniyalarda ishladim: men Public.ru veb-saytidagi kichik kompaniya bilan ish boshladim - bu shunday media kutubxona, men u erda lingvistik texnologiyalar bilan ishlay boshladim. Keyin men Rosnanotech kompaniyasida bir yil ishladim, u erda menda analitik portal yaratish g'oyasi paydo bo'ldi, shunda undagi ma'lumotlar avtomatik tarzda tuziladi. Keyin men Avicomp kompaniyasining tilshunoslik bo'limiga rahbarlik qildim - bu allaqachon hisoblash tilshunosligi va semantik texnologiyalar sohasidagi jiddiy ishlab chiqarish. Shu bilan birga, men Moskva davlat universitetida hisoblash tilshunosligi kursidan dars berdim va uni yanada zamonaviy qilishga harakat qildim.

Tilshunos uchun ikkita manba: - rus tiliga oid ilmiy va amaliy tadqiqotlar uchun tilshunoslar tomonidan yaratilgan sayt. Bu rus tilining modeli bo'lib, turli janr va davrlardagi matnlarning katta to'plami yordamida taqdim etilgan. Matnlar lingvistik belgilar bilan ta'minlangan bo'lib, ular yordamida ma'lum lingvistik hodisalarning chastotasi haqida ma'lumot olish mumkin. Wordnet - ulkan leksik ma'lumotlar bazasi ingliz tilidan, Wordnet-ning asosiy g'oyasi so'zlarni emas, balki ularning ma'nolarini bitta katta tarmoqqa ulashdir. Wordnet-ni yuklab olish va o'z loyihalaringiz uchun ishlatish mumkin.

Hisoblash tilshunosligi nima qiladi?

Bu eng fanlararo sohadir. Bu erda eng muhimi, elektron dunyoda nima sodir bo'layotganini va aniq narsalarni qilishda sizga kim yordam berishini tushunishdir.

Biz juda katta miqdordagi raqamli ma'lumotlar bilan o'ralganmiz, muvaffaqiyati ma'lumotlarni qayta ishlashga bog'liq bo'lgan ko'plab biznes loyihalar mavjud, bu loyihalar marketing, siyosat, iqtisod va boshqa narsalarga tegishli bo'lishi mumkin. Va bu ma'lumotdan samarali foydalana olish juda muhim - asosiysi nafaqat ma'lumotlarni qayta ishlash tezligi, balki shovqinni filtrlagandan so'ng, kerakli ma'lumotlarni olish va yaratishingiz mumkin bo'lgan qulaylikdir. ulardan to'liq rasm.

Ilgari ba'zi global g'oyalar hisoblash tilshunosligi bilan bog'liq edi, masalan: odamlar mashina tarjimasi inson tarjimasi o'rnini bosadi, odamlar o'rniga robotlar ishlaydi deb o'ylashgan. Ammo hozir bu utopiyaga o'xshaydi va notanish tilda tezda qidirish uchun qidiruv tizimlarida mashina tarjimasi qo'llaniladi. Ya'ni, hozir tilshunoslik kamdan-kam hollarda mavhum vazifalar bilan shug'ullanadi - asosan katta mahsulotga kiritilishi va undan pul topish mumkin bo'lgan ba'zi kichik narsalar bilan.

Zamonaviy tilshunoslikning katta vazifalaridan biri bu semantik tarmoq bo'lib, qidiruv faqat so'zlarning tasodifiyligi bilan emas, balki ma'no bo'yicha amalga oshiriladi va barcha saytlar qandaydir tarzda semantika bilan belgilanadi. Bu, masalan, har kuni yoziladigan politsiya yoki tibbiy hisobotlar uchun foydali bo'lishi mumkin. Ichki aloqalarni tahlil qilish ko'p narsalarni beradi zarur ma'lumotlar, va uni qo'lda o'qish va hisoblash juda uzoq.

Xulosa qilib aytganda, bizda mingta matn bor, biz ularni qoziqlarga ajratishimiz, har bir matnni struktura sifatida taqdim etishimiz va biz allaqachon ishlashimiz mumkin bo'lgan jadvalni olishimiz kerak. Bu strukturasiz axborotni qayta ishlash deb ataladi. Boshqa tomondan, hisoblash tilshunosligi, masalan, sun'iy matnlarni yaratish bilan shug'ullanadi. Biror kishi yozish uchun zerikarli bo'lgan mavzularda matnlarni yaratish mexanizmini ishlab chiqqan kompaniya bor: mulk narxlarining o'zgarishi, ob-havo prognozlari, futbol o'yini hisobotlari. Biror kishi uchun bu matnlarni buyurtma qilish ancha qimmatga tushadi, bundan tashqari, bunday mavzulardagi kompyuter matnlari izchil inson tilida yozilgan.

Yandex Rossiyada tuzilmagan ma'lumot qidirish sohasidagi ishlanmalar bilan faol shug'ullanadi, Kasperskiy laboratoriyasi mashinani o'rganishni o'rganadigan tadqiqot guruhlarini yollaydi. Bozorda kimdir hisoblash tilshunosligi sohasida yangi narsalarni o'ylab topishga harakat qilyaptimi?

**Kompyuter tilshunosligi bo‘yicha kitoblar:**

Daniel Jurafskiy, nutq va tilni qayta ishlash

Kristofer Menning, Prabxakar Raghavan, Geynrix Shutse, Axborot qidirishga kirish

Yakob Testelek, "Umumiy sintaksisga kirish"

Ko'pgina lingvistik ishlanmalar yirik kompaniyalarning mulki bo'lib, jamoat mulkida deyarli hech narsa topib bo'lmaydi. Bu soha rivojiga to‘sqinlik qiladi, bizda erkin lingvistik bozor, qutichali yechimlar yo‘q.

Bundan tashqari, to'liq axborot resurslari yetarli emas. Rus tilining milliy korpusi kabi loyiha mavjud. Bu jadal rivojlanayotgan va ilmiy va amaliy tadqiqotlar uchun ajoyib imkoniyatlar ochadigan dunyodagi eng yaxshi milliy korpuslardan biridir. Farqi biologiyadagi kabi - DNK tadqiqotidan oldin va keyin.

Ammo ko'p manbalar rus tilida mavjud emas. Shunday qilib, Framenet kabi ajoyib ingliz tilidagi resursning o'xshashi yo'q - bu ma'lum bir so'zning boshqa so'zlar bilan barcha mumkin bo'lgan ulanishlari rasmiy ravishda taqdim etilgan shunday kontseptual tarmoq. Masalan, “uchib ketmoq” so‘zi bor – kim ucha oladi, qayerda, bu so‘z qanday bahona bilan qo‘llangan, qanday so‘zlar bilan qo‘shilib ketgan va hokazo. Bu resurs tilni real hayot bilan bog‘lashga, ya’ni ma’lum bir so‘zning morfologiya va sintaksis darajasida o‘zini qanday tutishini kuzatishga yordam beradi. Bu juda foydali.

Avicomp hozirda tegishli maqolalarni qidirish uchun plaginni ishlab chiqmoqda. Ya'ni, agar siz biron bir maqolaga qiziqsangiz, syujet tarixini tezda ko'rishingiz mumkin: mavzu qachon paydo bo'lgan, nima yozilgan va bu muammoga qiziqish cho'qqisi qachon bo'lgan. Masalan, ushbu plagindan foydalanib, Suriyadagi voqealar haqidagi maqoladan boshlab, qanday qilib tezda ko'rish mumkin bo'ladi. o'tgan yili voqealar u erda sodir bo'ldi.

Magistraturada ta’lim jarayoni qanday tuziladi?

HSEda ta'lim xuddi G'arb universitetlarida bo'lgani kabi alohida modullarda tashkil etilgan. Talabalar kichik guruhlarga, mini-startaplarga bo'linadi - ya'ni oxirida biz bir nechta tayyor loyihalarni olishimiz kerak. Biz haqiqiy mahsulotlarni olishni istaymiz, keyin ularni odamlarga ochamiz va jamoat mulki sifatida qoldiramiz.

Talabalar loyihalarining bevosita rahbarlaridan tashqari, biz ularning potentsial ish beruvchilari orasidan kuratorlarni topmoqchimiz - masalan, xuddi o'sha Yandexdan, ular ham ushbu o'yinni o'ynaydi va talabalarga maslahat beradi.

Umid qilamanki, magistraturaga turli sohalardan odamlar keladi: dasturchilar, tilshunoslar, sotsiologlar, marketologlar. Bizda tilshunoslik, matematika va dasturlash bo'yicha bir nechta moslashish kurslari bo'ladi. Keyin tilshunoslik bo‘yicha ikkita jiddiy kursga ega bo‘lamiz va ular eng dolzarb tilshunoslik nazariyalari bilan bog‘lanadi, biz bitiruvchilarimiz zamonaviy lingvistik maqolalarni o‘qib, tushuna olishlarini istaymiz. Matematika bilan ham xuddi shunday. Bizda “Hisoblash tilshunosligining matematik asoslari” kursi bo‘ladi, unda zamonaviy hisoblash tilshunosligi asos bo‘lgan matematikaning o‘sha bo‘limlari taqdim etiladi.

Magistraturaga kirish uchun siz til bo'yicha kirish imtihonini topshirishingiz va portfolio tanlovidan o'tishingiz kerak.

Asosiy kurslarga qo'shimcha ravishda tanlov fanlari qatori ham bo'ladi.Biz bir nechta sikllarni rejalashtirganmiz - ulardan ikkitasi alohida mavzularni chuqurroq o'rganishga qaratilgan bo'lib, masalan, mashina tarjimasi va korpus lingvistikasi va aksincha, biri tegishli sohalar bilan bog'liq: masalan, , ijtimoiy tarmoqlar, mashinani oʻrganish yoki raqamli gumanitar fanlar - bu kurs ingliz tilida olib boriladi deb umid qilamiz.

UC rahbari


umumiy ma'lumot

Hisoblash tilshunosligi boʻyicha UC 2011-yilda Rossiya Davlat gumanitar universiteti Tilshunoslik institutida ABBYY ishtirokida va IBM’ning Rossiya filiali koʻmagida ochilgan. UC innovatsion til kompyuter texnologiyalarini ishlab chiqishda samarali ishlay oladigan professional tilshunoslarni tayyorlaydi. 2012-yildan boshlab O‘U “Fundamental va amaliy tilshunoslik” yo‘nalishining “Kompyuter tilshunosligi” dasturi bo‘yicha bakalavrlarni tayyorlaydi.

Hisoblash tilshunosligi - bu ilmiy va muhandislik faoliyatining nisbatan yangi sohasi. Ushbu magistratura dasturini yaratishning dolzarbligi shundan iboratki, so'nggi 10-15 yil ichida ushbu sohada Internetning tobora kuchayib borayotgan ta'siri va ko'plab yangi texnik vositalarning paydo bo'lishi bilan bog'liq jadal rivojlanish kuzatilmoqda. qurilmalar, ularning eng muhim qismi tabiiy til interfeyslaridir. Bundan tashqari, zamonaviy tilshunoslikda til ma'lumotlarini olishning an'anaviy usullaridan kompyuter texnologiyalarini jiddiy rivojlantirishni talab qiladigan korpus usullariga tez o'tish sodir bo'lmoqda.

Tegishli texnologiyalarni ishlab chiqishda ishtirok eta oladigan mutaxassislarga bo'lgan aniq, yildan-yilga ortib borayotgan ehtiyoj, afsuski, tizimda tegishli ta'lim standartining mavjudligi bilan hali qo'llab-quvvatlanmaydi. Rus ta'limi. Taklif etilayotgan dastur sanoatga qanday mutaxassislar kerakligini aniqlashga qaratilgan birinchi urinishlardan biridir.

Tabiiy tilni (NL) avtomatik qayta ishlash muammolarini hal qilish bilan bog'liq bo'lgan va "Hisoblash tilshunosligi" deb nomlangan faoliyat sohasi ikkita tubdan farq qiladigan sohada mutaxassislarni tayyorlashni talab qiladi: tilshunoslar va muhandislar. Bu sohalar ikkita mutlaqo boshqa ta'lim tizimiga asoslanadi:

  • "Muhandislar uchun kompyuter lingvistikasi" deb ataladigan narsaning bir qismidir. Kompyuter fanlari. Ushbu yo'nalish doirasida mavjud lingvistik resurslar va muayyan vazifa uchun zarur bo'lgan modellar asosida NLni avtomatik qayta ishlash muammolarini samarali hal qila oladigan muhandislar tayyorlanadi. UC bunday mutaxassislarning paydo bo'lishiga, texnik universitetlar bilan o'zaro hamkorlik qilishga yordam beradi. Xususan, Rossiya Davlat gumanitar universitetining Hisoblash tilshunosligi UC ishtirokida MIPTda muhandislar uchun hisoblash tilshunosligi bo‘yicha “parallel” magistratura dasturi yaratilmoqda.
  • “Tilshunoslar uchun hisoblash tilshunosligi” nazariy va amaliy tilshunoslikning bir bo‘limidir. Ushbu yo'nalish doirasida NLni avtomatik qayta ishlash vazifalarida ulardan foydalanish uchun zarur xususiyatlarga ega bo'lgan rasmiy til modellari va lingvistik resurslarni yaratish muammolarini hal qila oladigan tilshunoslar tayyorlanadi. Aynan mana shu yoʻnalish UC tomonidan yaratilgan “Fundamental va kompyuter tilshunosligi” magistratura dasturi tomonidan amalga oshiriladi.

Eng muhim holat shundaki, ushbu ikki yo'nalishda tayyorlangan mutaxassislar NRni avtomatik qayta ishlash sohasidagi har qanday jiddiy loyihalarning muhim ishtirokchilaridir. Va ular sezilarli darajada farq qiladigan funktsiyalarni bajarishiga qaramay, bir-biri bilan samarali o'zaro ta'sir o'tkazish qobiliyati bunday loyihalar muvaffaqiyatining asosiy omilidir. Bunday o'zaro ta'sirning asoslari tilshunoslarning jiddiy muhandislik-matematik tayyorgarligi (va shunga mos ravishda muhandislarning lingvistik tayyorgarligi) tufayli dasturlarda qo'yiladi.

Shunday qilib, ushbu dasturda hisoblash tilshunosligi bo'yicha magistrlarni tayyorlash tilshunoslikning fundamental asoslarini chuqur o'rganishga asoslangan bo'lib, bunday tabiiy tilni qayta ishlash vazifalarining murakkabligiga mos keladigan til tizimining operatsion rasmiy modellarini yaratish usullariga e'tibor qaratiladi. nutqni tanib olish va sintez qilish, mashina tarjimasi, semantik tahlil va tushunish kabi.matn, aqlli qidiruv.

UC ning o'ziga xos xususiyatlari quyidagi bo'limlarda aks ettirilgan:

1. Tilning rasmiy modellari (amaliy foydalanish istiqbollariga urg'u berilgan);

2. Instrumental yo'nalish: tilshunoslar uchun maxsus tillar va paketlar (NLTK, R va boshqalar), mavjud resurslar (grammatikalar va tahlilchilardan tortib ontologiyalargacha);

3. Amaliy yo'nalish (NLPning ayrim muhim vazifalari, ular qanday hal qilinadi, tilshunoslik qanday qo'llaniladi);

4. Matematik va muhandislik bilimi. Statistika, rasmiy grammatika, mashinani o'rganish usullarini tushunish.

UC kompyuter tilshunosligi bo'yicha bakalavrlar uchun quyidagi kurslarni taqdim etadi:

  • Hisoblash tilshunosligining matematik asoslari. Hisoblash tilshunosligida qo'llaniladigan asosiy matematik usullarning umumiy kursi: matematik mantiq; ehtimollar nazariyasi va statistikasi; rasmiy grammatika; algoritmlar nazariyasi, xususan - algoritmning murakkabligi tushunchasi; mashinani o'rganish;
  • Lingvistik vazifalarni dasturlash (NLTK va R). Kursning maqsadi talabalarga Python tiliga asoslangan mavjud tarjimonlar bilan ishlashni o'rgatishdir. Umuman dasturlash usullariga qisqacha kirish;
  • Umumiy va kompyuter leksikografiyasi (Lexicom dasturi yordamida). Kurs talabalarni zamonaviy tizimli leksikografiya tamoyillari bilan tanishtiradi; leksikografik ishning yangi usullari, shu jumladan korpus usullari bilan. Lug'atlar yaratish uchun zamonaviy kompyuter tizimlari ko'rib chiqiladi, leksikografiyaning yangi tendentsiyalari (wiki-loyihalar, filiatsiyani baholashning ekspert usullari va boshqalar) tahlil qilinadi;
  • Matnni avtomatik qayta ishlash modellari va usullari (NLP/AOT). Ikki qismdan iborat umumiy kurs (matritsa, turli o'qituvchilar bilan): asosiy lingvistik modellar + hal qilinishi kerak bo'lgan asosiy vazifalar. Kurs uslubiy jihatdan “Tilshunoslik tadqiqotining matematik asoslari” kursi bilan bog‘langan. Kursning birinchi qismi umumlashtiruvchi xususiyatga ega boʻlib, magistrantlarning tilshunoslik mutaxassisliklari boʻyicha bakalavriat bosqichida oʻqiganlarida olgan til boʻyicha tizimli bilimlariga asoslanadi (bu bilimlar oʻqish uchun zarurdir). kirish imtihoni);
  • Lingvistik va ontologik modellar. Mafkuraviy jihatdan juda muhim kurs, lingvistik va ekstralingvistik modellar o'rtasida ko'prik ochib beradi. Kurs leksik-semantik va ontologik tavsiflar (xususan, Igor Boguslavskiy loyihasi) o'rtasidagi interfeys bilan bog'liq. Zamonaviy lingvoontologik resurslar (*net), ular orasidagi “xaritalashtirish”ning zamonaviy loyihalari (Marta Palmer va K) tahlil qilingan;
  • Korpus tilshunosligi. Korporatsiyani yaratish va baholash muammolari ko'rib chiqiladi. Internet korpus sifatida. Korporatsiyani avtomatik yaratish usullari. Lingvistik tadqiqotlarda korpuslardan foydalanish usullarini tahlil qilish (olingan statistik natijalarning ahamiyatini baholash).
  • Lingvistik annotatsiya va belgilash. XML dan boshlab belgilash tillari va usullari. Mafkuraviy jihatdan Xovey kursiga yaqin;
  • Mashina tarjimasi;
  • NLP ilovalarini baholash usullari;
  • Asosiy dunyo tillarining rasmiy modellari va manbalari (hind-evropa bo'lmagan);
  • Ma'lumot qidirish;
  • Savol-javob tizimlari (IBM maxsus kursi);
  • Ixtisoslashgan lingvistik ma'lumotlar bazalari.

Tilshunoslik instituti talabalari uchun (mutaxassis, bakalavr, magistratura) UC quyidagi kurslarni taklif etadi:

  • Hisoblash tilshunosligiga kirish;
  • Hisoblash tilshunosligi. Asosiy vazifalar va texnologiyalar;
  • Sotsialingvistikaning zamonaviy usullari;
  • Avtomatik tarjima
  • Mashina tarjimasining lingvistik asoslari;
  • Informatika asoslari;
  • Yangi axborot texnologiyalarini lingvistik ta'minlashning asosiy yo'nalishlari (matnlarni kompyuter tahlili);
  • Tilshunoslikda informatika va axborot texnologiyalari;
  • Tabiiy tilni avtomatik qayta ishlash;
  • Matnni avtomatik qayta ishlash, tasvirlar uchun tavsif matnlarini avtomatik yaratish;
  • Tarjima faoliyati uchun kompyuter yordami;
  • Korpus tilshunosligi.

Talabalar ABBYY da amaliyot o'tamoqda.

Shuningdek, ABBYY veb-saytidagi UC Computational lingvistics sahifasiga qarang.

Hisoblash tilshunosligi bo'yicha UC xodimlarining ro'yxati

Vladimir Pavlovich Selegey - ABBYY lingvistik tadqiqotlar direktori, Universitet Hisoblash tilshunosligi markazi rahbari
"Kompyuter tilshunosligiga kirish"