زبانشناسی محاسباتی در HSE: Anastasia Bonch-Osmolovskaya در برنامه کارشناسی ارشد جدید. وظایف اصلی زبان شناسی محاسباتی و رویکردهای حل آنها دروس زبان شناسی محاسباتی

« افتتاح بخش در MIPT به ما این امکان را می دهد که نه تنها کمک کنیم آنها دانش آموزان.

هدف ما ارائه بهترین آموزش علوم کامپیوتر در روسیه در FIVT است.
سوتلانا لوزگینا، خدمات ارتباطات شرکتی.


رئیس بخش:ولادیمیر پاولوویچ سلگی، مدیر تحقیقات زبانشناسی در ABBYY

دپارتمان زبانشناسی محاسباتی FIVT در سال 2011 تاسیس شد شرکت روسی ABBYY، یکی از توسعه دهندگان پیشرو نرم افزاردر زمینه هوش مصنوعی، به ویژه، تشخیص اسناد و پردازش زبان طبیعی. این بخش متخصصانی را آموزش می دهد که می توانند به طور مؤثر در زمینه توسعه فناوری های نوآورانه زبان رایانه ای، به ویژه فناوری ABBYY Compreno برای تجزیه و تحلیل متن نحوی و معنایی کار کنند.

در دهه گذشته، زبان شناسی محاسباتی به طور فعال در سراسر جهان در حال توسعه بوده است. این به دلیل نفوذ روزافزون اینترنت و ظهور تعداد زیادی ابزار فنی جدید با رابط های زبان طبیعی است. فن آوری هایی مانند بازیابی اطلاعات چندزبانه، ترجمه ماشینی، استخراج دانش، تشخیص گفتار و غیره به ویژه به سرعت در حال توسعه هستند.در روسیه، زبان شناسی محاسباتی تاکنون توجه کافی در سیستم آموزشی نداشته است. به همین دلیل، در جهان تحقیق علمیدر زبان‌شناسی محاسباتی، زبان روسی کمتر معرفی شده است.

تخصص زبانشناسی محاسباتی در MIPT بر اساس آموزش فنی عمیق ارائه شده توسط MIPT است. کلاس‌های دپارتمان پایه در دفتر ABBYY برگزار می‌شود، جایی که کارمندان شرکت دوره‌هایی را در زمینه پردازش خودکار زبان، فرهنگ لغت عمومی و کامپیوتر، زبان‌شناسی پیکره و همچنین رشته‌های یکپارچه علوم کامپیوتر در زمینه توسعه نرم‌افزار تدریس می‌کنند.

یکی از وظایف بخش مشارکت فعال دانشجویان در زندگی علمی است. مهم است که نه تنها از "روندهای" جهانی فعلی در زبان شناسی محاسباتی آگاه باشیم، بلکه بخشی از فرآیند جهانی باشیم. دانشجویان این دپارتمان مشارکت فعالی در توسعه فناوری ABBYY Compreno و با همکاری دانشگاه دولتی روسیه برای علوم انسانی دارند. پروژه تحقیقاتیدر مورد ایجاد مجموعه اینترنت عمومی زبان روسی (GIKRYA) بر اساس منابع اینترنت روسی زبان.

پذیرش در بخش با توجه به نتایج مسابقه برای هر دو دوره کارشناسی و سال اول برنامه کارشناسی ارشد انجام می شود. لیسانس تمام دانشکده های موسسه فیزیک و فناوری مسکو و همچنین سایر دانشکده های عالی موسسات آموزشی. ثبت نام بر اساس نتایج حل مسائل منطقی و الگوریتمی و مصاحبه با رهبری بخش انجام می شود.

اگر می خواهید برای دپارتمان مصاحبه کنید یا سوالی بپرسید، به آن نامه بنویسید [ایمیل محافظت شده]. شما را در ABBYY می بینیم!

بنابراین، زبان شناسی محاسباتی علمی جوان اما بسیار امیدوارکننده است. ولی ویژگی اصلیاز این علم این است که بین رشته ای تلقی می شود، یعنی به بررسی مسائل در تلاقی برنامه نویسی و زبان شناسی می پردازد. و برای تبدیل شدن به یک متخصص تمام عیار در این زمینه، باید در ریاضیات و زبان شناسی به خوبی تسلط داشته باشید.

برنامه های آموزشی به برنامه هایی برای زبان شناسانی تقسیم می شود که می خواهند زندگی خود را با پیشرفت های زبانی در فناوری اطلاعات مرتبط کنند و برای ریاضیدانانی که می خواهند روی سیستم های تشخیص متن، برنامه های ترجمه و غیره کار کنند. ما روی گزینه دوم تمرکز خواهیم کرد.

من می خواهم فوراً رزرو کنم که فقط تعداد کمی از این برنامه های کارشناسی ارشد در روسیه وجود دارد و معمولاً توسط شرکت هایی که در توسعه زبانی فعالیت دارند نظارت می شوند. بیشتر برنامه های اختصاص داده شده به زبان شناسی محاسباتی در پایتخت ها قرار دارند.

من با کارشناسی ارشد شروع می کنم که به نظرم جالب ترین بود. این دانشگاه در سنت پترزبورگ، بر اساس دانشگاه ایالتی سنت پترزبورگ در گروه سیستم های اطلاعاتی در هنر و علوم انسانی واقع شده است. می خواهم فوراً متذکر شوم که این بخش در دانشکده علوم انسانی قرار دارد، اما به طور خاص برای برنامه نویسان طراحی شده است. برنامه آموزشی "مهندسی دانش بشردوستانه" نام دارد. هدف برنامه کارشناسی ارشد (من به نقل از سایت) "تربیت متخصصان قادر به مشارکت در کارهای تحقیقاتی و پروژه ای در زمینه فناوری اطلاعات هوشمند با تخصص در گرایش مهندسی زبان، فن آوری های استخراج دانش بشردوستانه از یک جریان متن، مهندسی هستی شناسی."

برای ورود به آنجا، باید یک آزمون کتبی را بگذرانید که شامل سوالاتی در ریاضیات، مبانی برنامه نویسی و (کمی) زبان شناسی می شود. ریاضیدانان نباید از سؤالات آخرین رشته بترسند: با توجه به فهرست منابع، دو یا سه کتاب ساده با عنوان «درآمدی بر زبان شناسی» برای قبولی در کنکور کافی است. از منابع خودم فهمیدم که او بر این کار نظارت دارد برنامه آموزشیشرکت Yandex، با این حال، این در وب سایت دادگاه ذکر نشده است.

شعبه دوم، که می خواهم در مورد آن صحبت کنم، در مسکو در بخش تشخیص تصویر و پردازش متن دانشکده نوآوری و فناوری های عالی (FIHT) در MIPT قرار دارد. در سال 2006 توسط ABBYY تاسیس شد. با قضاوت بر اساس توضیحات، از چندین برنامه کارشناسی ارشد ارائه شده توسط این بخش، حوزه های "سیستم های هوشمند" و "روش های یادگیری ماشین" بیش از همه به زبان شناسی محاسباتی تعلق دارند. برای رسیدن به آنجا و تحصیل، نه تنها باید در آزمون ورودی قبول شوید، بلکه باید مصاحبه با کارمندان ABBYY را نیز پشت سر بگذارید. با این حال، ABBYY انتظار دارد که فارغ التحصیلان بعدی برای آنها کار کنند.

و آخرین رشته کارشناسی ارشد که برایتان می گویم «زبان شناسی محاسباتی» نام دارد و در دانشکده فیلولوژی دانشکده عالی اقتصاد قرار دارد. همانطور که از اطلاعاتی که به دست آوردم، در مسکو و در شعبه نیژنی نووگورود HSE موجود است. نمایندگان دانشگاه بر این باورند که این برنامه نه تنها برای ریاضیدانان، بلکه برای فارغ التحصیلان با سایر تحصیلات پایه نیز مناسب است. آموزش شامل هر دو دوره برنامه نویسی است که برای جذب فارغ التحصیلان علوم انسانی طراحی شده است و دوره زبان شناسی عمومی که برای ریاضیدانان طراحی شده است.

برای ثبت نام در این برنامه کارشناسی ارشد، باید یک آزمون را قبول کنید زبان خارجیو یک نمونه کار تهیه کنید که باید حاوی انگیزه نامه و اطلاعاتی در مورد دانش آموز آینده باشد. شما باید در مورد علایق حرفه ای، انتشارات، کارهایی که انجام داده اید و غیره صحبت کنید. معلمان کارمندان دانشکده فیلولوژی، دپارتمان ریاضیات عالی در سراسر دانشگاه، دپارتمان ریاضیات کاربردی و انفورماتیک و دپارتمان پایه یاندکس خواهند بود.

به طور کلی، فارغ التحصیلانی که تصمیم به تحصیل در رشته زبان شناسی محاسباتی دارند، حق انتخاب دارند. در حالی که کوچک است، اما فکر می کنم در آینده برنامه های زیادی از این دست وجود خواهد داشت.

فکر می کنم این پایان بررسی من است.
برای کمک در تهیه مقاله، از Yandex و Google، وب سایت رسمی ABBYY و همچنین وب سایت های دانشگاه ها که در پست مورد بحث قرار گرفته اند تشکر می کنم.

مرکز فرهنگی آموزشی «آرکه» شما را به دوره سخنرانی الکساندر چدوویچ پیپرسکی «زبان شناسی محاسباتی» دعوت می کند.

موضوع سخنرانی اول: "وظایف اصلی زبان شناسی محاسباتی و رویکردهای حل آنها".

ترجمه ماشینی، چک کردن املا، طبقه بندی متن، تشخیص گفتار و بسیاری موارد دیگر: همه اینها وظایف زبانشناسی محاسباتی است. می توانید آنها را حل کنید روش های مختلف: یا تلاش برای تقلید از نحوه کار یک فرد با یک زبان، یا امید به اینکه همه چیز را می توان با داده های بزرگ مدیریت کرد. اما پردازش خودکار زبان طبیعی آسان نیست و مشکلات زیادی در این راه وجود دارد. مشکلات عبارتند از همنامی (زمانی که یک کلمه چیزهای مختلف را نام می برد)، مترادف (زمانی که برعکس، یک چیز با کلمات مختلف نامیده می شود) و سایر ویژگی های زبان های انسانی که ما حتی در معمولی به آنها توجه نمی کنیم. زندگی

درباره مدرس:
، کاندیدای علوم در رشته شناسی، دانشیار انستیتوی زبان شناسی دانشگاه دولتی بشردوستانه روسیه، پژوهشگر دانشکده فیلولوژی در دانشکده عالی اقتصاد دانشگاه تحقیقات ملی، نویسنده کتاب طراحی زبان ها (Alpina Non- داستان، 2017).

درباره دوره سخنرانی "زبان شناسی کامپیوتر":

زبان‌شناسی محاسباتی یکی از پویاترین حوزه‌های در حال توسعه در تقاطع نظریه و عمل است. ما هر روز با دستاوردهای زبان شناسی محاسباتی روبرو می شویم: ترجمه ماشینی، جستجوی اینترنتی، دستیارهای صوتی و بسیاری موارد دیگر. پشت هر محصولی از این دست یک کار جدی از زبان شناسان و برنامه نویسان وجود دارد. در طول دوره، در مورد تاریخچه زبان شناسی محاسباتی و محبوب ترین روش های آن صحبت خواهیم کرد و همچنین خواهیم دید که چگونه می توانند مسائل مهم عملی مانند بررسی املا یا طبقه بندی اخبار بر اساس موضوع را حل کنند.

برنامه جدید کارشناسی ارشد مختص زبان شناسی محاسباتی در دانشکده فیلولوژی دانشکده عالی اقتصاد راه اندازی می شود: این برنامه پذیرای متقاضیان با تحصیلات پایه در علوم انسانی و ریاضی و هر کسی که علاقه مند به حل مسائل در یکی از امیدوار کننده ترین شاخه های علوم است. . رئیس آن، Anastasia Bonch-Osmolovskaya، به تئوری و عمل گفت که زبان شناسی محاسباتی چیست، چرا روبات ها جایگزین انسان نمی شوند، و در برنامه کارشناسی ارشد HSE در زبان شناسی محاسباتی چه چیزی تدریس خواهد شد.

این برنامه تقریباً تنها در نوع خود در روسیه است. خودت کجا درس خوندی؟

من در دانشگاه دولتی مسکو در گروه نظری و زبانشناسی کاربردیدانشکده فیلولوژی من فوراً به آنجا نرسیدم ، ابتدا وارد بخش روسی شدم ، اما بعد به طور جدی به زبان شناسی علاقه مند شدم و فضایی که تا امروز در این بخش باقی مانده است جذب من شد. مهمترین چیز ارتباط خوب بین معلمان و دانش آموزان و علاقه متقابل آنهاست.

وقتی بچه دار شدم و باید امرار معاش می کردم، وارد رشته زبان شناسی تجاری شدم. در سال 2005، خیلی مشخص نبود که این حوزه فعالیت به عنوان چنین است. من در شرکت های مختلف زبانی کار کردم: با یک شرکت کوچک در وب سایت Public.ru شروع به کار کردم - این چنین کتابخانه رسانه ای است که در آن شروع به کار با فناوری های زبانی کردم. سپس به مدت یک سال در Rosnanotech کار کردم، جایی که ایده ساخت یک پورتال تحلیلی را داشتم تا داده های موجود در آن به طور خودکار ساختار پیدا کنند. سپس من ریاست بخش زبان شناسی را در شرکت Avicomp بر عهده گرفتم - این در حال حاضر یک تولید جدی در زمینه زبان شناسی محاسباتی و فناوری های معنایی است. همزمان در دانشگاه دولتی مسکو یک دوره زبان شناسی محاسباتی تدریس کردم و سعی کردم آن را مدرن تر کنم.

دو منبع برای یک زبانشناس: - سایتی که توسط زبانشناسان برای تحقیقات علمی و کاربردی مرتبط با زبان روسی ایجاد شده است. این یک مدل از زبان روسی است که با کمک مجموعه عظیمی از متون از ژانرها و دوره های مختلف ارائه شده است. متون با نشانه گذاری زبانی ارائه می شوند که می توان از آن برای به دست آوردن اطلاعات در مورد فراوانی پدیده های زبانی خاص استفاده کرد. Wordnet - پایگاه داده واژگانی عظیم از زبان انگلیسی، ایده اصلی ورد نت این است که نه کلمات، بلکه معانی آنها را به یک شبکه بزرگ متصل کنیم. Wordnet را می توان دانلود کرد و برای پروژه های خود استفاده کرد.

زبان شناسی محاسباتی چه می کند؟

این بین رشته ای ترین رشته است. مهمترین چیز در اینجا این است که بفهمید در دنیای الکترونیک چه اتفاقی می افتد و چه کسی به شما در انجام کارهای خاص کمک می کند.

ما توسط حجم بسیار زیادی از اطلاعات دیجیتال احاطه شده ایم، پروژه های تجاری زیادی وجود دارد که موفقیت آنها به پردازش اطلاعات بستگی دارد، این پروژه ها می توانند به بازاریابی، سیاست، اقتصاد و هر چیز دیگری مرتبط باشند. و بسیار مهم است که بتوانید این اطلاعات را به طور مؤثر مدیریت کنید - نکته اصلی نه تنها سرعت پردازش اطلاعات، بلکه سهولتی است که با آن می توانید پس از فیلتر کردن نویز، داده های مورد نیاز خود را دریافت کرده و ایجاد کنید. تصویر کامل از آنها

پیش از این، برخی از ایده های جهانی با زبان شناسی محاسباتی مرتبط بودند، به عنوان مثال: مردم فکر می کردند که ترجمه ماشینی جایگزین ترجمه انسانی می شود، ربات ها به جای مردم کار می کنند. اما اکنون به نظر یک مدینه فاضله است و از ترجمه ماشینی در موتورهای جستجو برای جستجوی سریع به زبانی ناآشنا استفاده می شود. یعنی در حال حاضر زبان شناسی به ندرت با کارهای انتزاعی سر و کار دارد - بیشتر با چیزهای کوچکی که می توان آنها را در یک محصول بزرگ وارد کرد و از آن درآمد کسب کرد.

یکی از وظایف بزرگ زبان‌شناسی مدرن، وب معنایی است، زمانی که جستجو نه تنها با تصادف کلمات، بلکه با معنا انجام می‌شود و همه سایت‌ها به نوعی با معناشناسی مشخص می‌شوند. این می تواند مفید باشد، به عنوان مثال، برای پلیس یا گزارش های پزشکی که هر روز نوشته می شود. تجزیه و تحلیل اتصالات داخلی چیزهای زیادی می دهد اطلاعات لازمو خواندن و شمارش دستی آن بسیار طولانی است.

به طور خلاصه، ما هزار متن داریم، باید آنها را به صورت انبوه دسته بندی کنیم، هر متن را به عنوان یک ساختار ارائه دهیم و جدولی را بدست آوریم که می توانیم از قبل با آن کار کنیم. به این کار پردازش اطلاعات بدون ساختار می گویند. از سوی دیگر، زبان شناسی محاسباتی، به عنوان مثال، با خلق متون مصنوعی سروکار دارد. شرکتی وجود دارد که مکانیزمی برای تولید متون در مورد موضوعاتی ارائه کرده است که نوشتن در مورد آنها برای شخص خسته کننده است: تغییرات قیمت ملک، پیش بینی آب و هوا، گزارش مسابقات فوتبال. سفارش دادن این متون برای شخص بسیار گران تر است، علاوه بر این، متون رایانه ای در مورد چنین موضوعاتی به زبان انسانی منسجم نوشته شده است.

Yandex به طور فعال درگیر تحولات در زمینه جستجوی اطلاعات بدون ساختار در روسیه است، آزمایشگاه Kaspersky گروه های تحقیقاتی را استخدام می کند که یادگیری ماشین را مطالعه می کنند. آیا کسی در بازار تلاش می کند تا چیز جدیدی در زمینه زبان شناسی محاسباتی ارائه دهد؟

**کتاب های زبان شناسی محاسباتی:**

دانیل ژورافسکی، پردازش گفتار و زبان

کریستوفر منینگ، پرابهاکار راغوان، هاینریش شوتزه، مقدمه ای بر بازیابی اطلاعات

جیکوب تستلک، "مقدمه ای بر نحو عمومی"

بیشتر پیشرفت‌های زبانی متعلق به شرکت‌های بزرگ است، تقریباً هیچ چیز در حوزه عمومی یافت نمی‌شود. این مانع از توسعه صنعت می شود، ما بازار زبانی آزاد، راه حل های جعبه ای نداریم.

علاوه بر این، منابع اطلاعاتی کامل و کافی وجود ندارد. پروژه ای به عنوان مجموعه ملی زبان روسی وجود دارد. این یکی از بهترین مجموعه های ملی در جهان است که به سرعت در حال توسعه است و فرصت های باورنکردنی را برای تحقیقات علمی و کاربردی باز می کند. تفاوت تقریباً مانند زیست شناسی است - قبل و بعد از تحقیقات DNA.

اما بسیاری از منابع به زبان روسی وجود ندارد. بنابراین، هیچ آنالوگی برای چنین منبع شگفت انگیز انگلیسی زبانی مانند Framenet وجود ندارد - این یک شبکه مفهومی است که در آن تمام ارتباطات ممکن یک کلمه خاص با کلمات دیگر به طور رسمی ارائه می شود. مثلاً کلمه «پرواز» وجود دارد - چه کسی می تواند پرواز کند، کجا، با چه بهانه ای این کلمه به کار می رود، با چه کلماتی ترکیب می شود و غیره. این منبع به ارتباط زبان با زندگی واقعی کمک می کند، یعنی ردیابی نحوه رفتار یک کلمه خاص در سطح صرفی و نحو. این بسیار کاربردی است.

Avicomp در حال حاضر در حال توسعه یک افزونه برای جستجوی مقالات مرتبط است. یعنی اگر به مقاله ای علاقه دارید، می توانید به سرعت تاریخچه طرح را ببینید: چه زمانی موضوع مطرح شد، چه چیزی نوشته شد و چه زمانی اوج علاقه به این مشکل بود. به عنوان مثال، با استفاده از این افزونه، این امکان وجود خواهد داشت که با شروع از مقاله ای در مورد رویدادهای سوریه، خیلی سریع ببینید که چگونه سال گذشتهوقایع در آنجا رخ داد

فرآیند یادگیری در برنامه کارشناسی ارشد چگونه ساختار خواهد داشت؟

آموزش در HSE در ماژول های جداگانه سازماندهی شده است، درست مانند دانشگاه های غربی. دانش‌آموزان به تیم‌های کوچک، مینی استارت‌آپ‌ها تقسیم می‌شوند - یعنی در پایان باید چندین پروژه تمام شده را دریافت کنیم. ما می‌خواهیم محصولات واقعی را به دست آوریم که سپس آن‌ها را در اختیار مردم قرار می‌دهیم و در حوزه عمومی می‌گذاریم.

علاوه بر سرپرستان مستقیم پروژه های دانش آموزان، ما می خواهیم متصدیانی را از میان کارفرمایان بالقوه آنها پیدا کنیم - مثلاً از همان Yandex که این بازی را نیز انجام می دهند و به دانش آموزان توصیه هایی می کنند.

امیدوارم افرادی از رشته های مختلف به دادگاه بیایند: برنامه نویسان، زبان شناسان، جامعه شناسان، بازاریاب ها. ما چندین دوره انطباق در زبان شناسی، ریاضیات و برنامه نویسی خواهیم داشت. سپس ما دو دوره جدی در زبان شناسی خواهیم داشت و آنها با جدیدترین نظریه های زبان شناسی مرتبط می شوند، ما می خواهیم فارغ التحصیلان ما بتوانند مقالات زبان شناسی مدرن را بخوانند و درک کنند. در مورد ریاضیات هم همینطور است. ما دوره ای به نام "مبانی ریاضی زبان شناسی محاسباتی" خواهیم داشت که بخش هایی از ریاضیات را ارائه می دهد که زبان شناسی محاسباتی مدرن بر اساس آنها است.

برای ثبت نام در مقطع کارشناسی ارشد، باید یک آزمون ورودی زبان را پشت سر بگذارید و در یک مسابقه نمونه کارها شرکت کنید.

علاوه بر دروس اصلی، رشته‌ای از موضوعات انتخابی وجود خواهد داشت. ما چندین دوره را برنامه‌ریزی کرده‌ایم - دو تا از آنها بر مطالعه عمیق‌تر موضوعات فردی متمرکز است، که شامل، برای مثال، ترجمه ماشینی و زبان‌شناسی پیکره، و در برعکس، یکی مربوط به حوزه های مرتبط است: مانند شبکه های اجتماعی، یادگیری ماشینی یا علوم انسانی دیجیتال - دوره ای که امیدواریم به زبان انگلیسی ارائه شود.

رئیس UC


اطلاعات کلی

UC for Computational Linguistics در موسسه زبان شناسی دانشگاه دولتی بشردوستانه روسیه در سال 2011 با مشارکت ABBYY و پشتیبانی شعبه روسی IBM افتتاح شد. UC زبان شناسان حرفه ای را آموزش می دهد که می توانند به طور موثر در توسعه فن آوری های کامپیوتری زبان نوآورانه کار کنند. از سال 2012، UC دانشجویان کارشناسی را تحت برنامه "زبان شناسی محاسباتی" در جهت "زبان شناسی بنیادی و کاربردی" آموزش خواهد داد.

زبان شناسی محاسباتی حوزه نسبتا جدیدی از فعالیت های علمی و مهندسی است. ارتباط ایجاد این برنامه کارشناسی ارشد با این واقعیت تعیین می شود که در 10-15 سال گذشته توسعه سریعی در این زمینه صورت گرفته است که با نفوذ روزافزون اینترنت و ظهور تعداد زیادی از فناوری های جدید مرتبط است. دستگاه هایی که مهم ترین قسمت آن ها رابط های زبان طبیعی هستند. علاوه بر این، در زبان‌شناسی مدرن انتقال سریعی از روش‌های سنتی به دست آوردن داده‌های زبان به روش‌های پیکره‌ای وجود دارد که نیازمند توسعه جدی فناوری رایانه است.

نیاز آشکار و فزاینده سال به سال به متخصصانی که قادر به مشارکت در توسعه فناوری های مربوطه باشند، متاسفانه با وجود استاندارد آموزشی کافی در سیستم هنوز پشتیبانی نشده است. آموزش روسی. برنامه پیشنهادی یکی از اولین تلاش ها برای تعیین اینکه صنعت به چه نوع متخصصانی نیاز دارد است.

حوزه فعالیت مربوط به حل مشکلات پردازش خودکار زبان طبیعی (NL) و به نام "زبان شناسی محاسباتی" مستلزم آموزش متخصصان در دو حوزه کاملاً متفاوت است: زبان شناسان و مهندسان. این مناطق بر اساس دو سیستم آموزشی کاملاً متفاوت است:

  • "زبان شناسی کامپیوتر برای مهندسان" بخشی از به اصطلاح است. علوم کامپیوتر. در چارچوب این جهت، مهندسانی آموزش می بینند که می توانند به طور موثر مشکلات پردازش خودکار NL را بر اساس منابع زبانی موجود و مدل های لازم برای یک کار خاص حل کنند. UC ظهور چنین متخصصانی، تعامل با دانشگاه های فنی را ترویج می کند. به ویژه، با مشارکت UC برای زبان شناسی محاسباتی دانشگاه دولتی بشردوستانه روسیه، یک برنامه کارشناسی ارشد "موازی" در زبان شناسی محاسباتی برای مهندسان در MIPT در حال ایجاد است.
  • «زبان‌شناسی محاسباتی برای زبان‌شناسان» شاخه‌ای از زبان‌شناسی نظری و کاربردی است. در چارچوب این مسیر، زبان شناسانی تربیت می شوند که قادر به حل مشکلات ایجاد مدل های زبان رسمی و منابع زبانی بر اساس آنها هستند که ویژگی های لازم برای استفاده از آنها در وظایف پردازش خودکار NL را دارند. این جهت است که توسط برنامه کارشناسی ارشد "زبان شناسی اساسی و محاسباتی" ایجاد شده توسط UC اجرا می شود.

مهمترین شرایط این است که متخصصانی که در این دو زمینه آموزش دیده اند، شرکت کنندگان ضروری در هر پروژه جدی در زمینه پردازش خودکار NR هستند. و اگرچه آنها عملکردهای متفاوتی را انجام می دهند، اما توانایی تعامل مؤثر با یکدیگر عامل کلیدی در موفقیت چنین پروژه هایی است. مبانی چنین تعاملی به دلیل آموزش جدی مهندسی و ریاضی زبان شناسان (و آموزش زبان شناختی مربوط به مهندسان) در برنامه ها گذاشته شده است.

بنابراین، آماده سازی کارشناسی ارشد در زبان شناسی محاسباتی در این برنامه مبتنی بر مطالعه عمیق مبانی اساسی زبان شناسی با تأکید بر روش هایی برای ایجاد مدل های رسمی عملیاتی یک سیستم زبانی است که برای پیچیدگی چنین وظایف پردازش زبان طبیعی کافی است. به عنوان تشخیص و ترکیب گفتار، ترجمه ماشینی، تحلیل و درک معنایی، متن، جستجوی هوشمند.

مشخصات UC در بخش های زیر منعکس شده است:

1. مدل های رسمی زبان (با تاکید بر چشم انداز استفاده کاربردی).

2. جهت ابزاری: زبان ها و بسته های تخصصی برای زبان شناسان (مانند NLTK، R، و غیره)، منابع موجود (از گرامرها و تجزیه کننده ها تا هستی شناسی ها)؛

3. جهت کاربردی (بعضی از وظایف مهم NLP، نحوه حل آنها، نحوه استفاده از زبانشناسی).

4. پیشینه ریاضی و مهندسی. آمار، گرامرهای رسمی، درک روش های یادگیری ماشین.

UC دوره های زیر را به دانشجویان زبان شناسی محاسباتی ارائه می دهد:

  • مبانی ریاضی زبانشناسی محاسباتی. دوره مروری بر روش های اصلی ریاضی مورد استفاده در زبان شناسی محاسباتی: منطق ریاضی. تئوری احتمال و آمار؛ گرامرهای رسمی؛ نظریه الگوریتم ها، به ویژه - مفهوم پیچیدگی یک الگوریتم؛ فراگیری ماشین؛
  • برنامه ریزی وظایف زبانی (NLTK و R). هدف از این دوره آموزش نحوه کار با مفسرهای موجود بر اساس زبان پایتون است. مقدمه ای کوتاه بر روش های برنامه نویسی به طور کلی؛
  • فرهنگ لغت عمومی و کامپیوتری (با استفاده از برنامه Lexicom). این دوره دانش آموزان را با اصول فرهنگ شناسی سیستمی مدرن آشنا می کند. با روش های جدید کار فرهنگ شناسی، از جمله روش های پیکره. سیستم های کامپیوتری مدرن برای ایجاد فرهنگ لغت در نظر گرفته شده است، روندهای جدید در فرهنگ نویسی (پروژه های ویکی، روش های تخصصی برای ارزیابی فیلیشن، و غیره) تجزیه و تحلیل می شوند.
  • مدل‌ها و روش‌های پردازش خودکار متن (NLP/AOT). یک دوره مروری شامل دو بخش (ماتریس، با اساتید مختلف): مدل‌های زبانی پایه + وظایف اصلی که باید حل شوند. این دوره به طور روشمند با درس "مبانی ریاضی تحقیقات زبانی" مرتبط است. بخش اول این دوره به صورت خلاصه و مبتنی بر دانش سیستمی زبان است که توسط کارشناسی ارشد در طول تحصیل در مقطع کارشناسی در تخصص های زبان شناسی به دست آمده است (این دانش برای قبولی لازم است. آزمون ورودی);
  • مدل های زبانی و هستی شناختی از نظر ایدئولوژیک یک دوره بسیار مهم است که پلی بین مدل های زبانی و برون زبانی ایجاد می کند. این دوره به رابط بین توصیفات واژگانی- معنایی و هستی شناختی (به ویژه پروژه ایگور بوگوسلاوسکی) می پردازد. منابع زبانی-هستی‌شناسی مدرن (*شبکه)، پروژه‌های مدرن «نقشه‌نگاری» بین آنها (مارتا پالمر و K) تحلیل می‌شوند.
  • زبانشناسی پیکره. مشکلات ایجاد و ارزیابی مجموعه ها در نظر گرفته شده است. اینترنت به عنوان یک مجموعه روش های ایجاد خودکار مجموعه ها تحلیل روش‌های استفاده از پیکره‌ها در تحقیقات زبان‌شناختی (ارزیابی معناداری نتایج آماری به‌دست‌آمده).
  • حاشیه نویسی و نشانه گذاری زبانی. زبان‌ها و روش‌های نشانه‌گذاری، با XML شروع می‌شوند. از نظر ایدئولوژیک به دوره هووی نزدیک است.
  • ترجمه ماشینی؛
  • روش‌های ارزیابی برنامه‌های NLP؛
  • مدل های رسمی و منابع زبان های اصلی جهان (غیر هند و اروپایی)؛
  • جستجوی اطلاعات؛
  • سیستم های پرسش و پاسخ (دوره ویژه IBM);
  • پایگاه های تخصصی زبانشناسی

برای دانشجویان موسسه زبان شناسی (تخصصی، کارشناسی، کارشناسی ارشد) UC دوره های زیر را ارائه می دهد:

  • مقدمه ای بر زبان شناسی محاسباتی;
  • زبانشناسی محاسباتی. وظایف و فناوری های اصلی؛
  • روش های نوین زبان شناسی اجتماعی؛
  • ترجمه خودکار
  • مبانی زبانی ترجمه ماشینی؛
  • مبانی انفورماتیک;
  • جهات اصلی پشتیبانی زبانی از فناوری های جدید اطلاعات (تحلیل رایانه ای متون)؛
  • انفورماتیک و فناوری اطلاعات در زبانشناسی؛
  • پردازش خودکار زبان طبیعی؛
  • پردازش خودکار متن، تولید خودکار متون توضیحات برای تصاویر.
  • پشتیبانی رایانه ای برای فعالیت های ترجمه؛
  • زبانشناسی پیکره.

دانشجویان دوره های کارآموزی را در ABBYY انجام می دهند.

همچنین به صفحه زبان‌شناسی محاسباتی UC در وب‌سایت ABBYY مراجعه کنید.

لیست کارکنان دانشگاه UC برای زبانشناسی محاسباتی

ولادیمیر پاولوویچ سلگی - مدیر تحقیقات زبانشناسی ABBYY، رئیس مرکز دانشگاهی زبانشناسی محاسباتی
"مقدمه ای بر زبان شناسی محاسباتی"