Марія Шведова: "Корпус - необхідний інструмент для сучасного лінгвіста"

Марія Шведова: "Корпус - необхідний інструмент для сучасного лінгвіста"

Поєднання лінгвістики і сучасних інформаційних технологій.

Про регіонально анотований Корпус української мови йшлося в програмі Українського радіо "Сьогодні. Вдень". Гостя студії - лінгвіст Марія Шведова - є співтворцем продукту, який називається Генеральний регіонально анотований Корпус української мови.

Роман Коляда: Розкажіть людям не посвяченим, що таке Корпус української мови?

Марія Шведова: Корпус - це необхідний інструмент для сучасного лінгвіста. Це пошукова база, яка складається з великої кількості текстів, зібраних таким чином, щоб там були тексти різних часів, різних авторів, різних регіонів, різних жанрів, і лінгвістичний програмний інструментарій, який дозволяє працювати з цим матеріалом. У Корпусі можна не тільки шукати слово чи точну форму, як в Гуглі, можна шукати граматичну форму, можна шукати поєднання слів граматичних форм, різні складні синтаксичні конструкції і можна отримувати якусь статистичну інформацію, важливу для лінгвістичних досліджень. Корпуси використовують не тільки для наукової роботи, а й для укладання програм автоматичного перекладу і просто для довідок. Наш Корпус доступний в Інтернеті.

Роман Коляда: Тобто отой кошмар, який я читаю в Гугл-перекладі з російської на українську, це результат того, як працює ваш Корпус?

Марія Шведова: Ні, не наш. Автоматичний переклад вдосконалюється на основі корпусів, які збільшуються і вчать цю програму.

Роман Коляда: Я ніколи не міг зрозуміти, як можна навчити машину думати складними лінгвістичними конструкціями, особливо коли йдеться про таку складну мову, як українська. Це правда, що вона аж така складна?

Марія Шведова: Мабуть так, як будь яка природна мова складна, штучні мови простіші.

Роман Коляда: Чи існують мови, яким простіше навчити комп'ютер?

Марія Шведова: Так, це мови з менш розвинутими морфологічними системами, де немає відмінків, наприклад.

Роман Коляда: Чим відрізняється Корпус і словник?

Марія Шведова: Відрізняється тим, що словник - це оброблений мовний матеріал, підготовлений лексикографами, який є штучним. А Корпус - це реальні тексти, написані багатьма людьми в нашому Корпусі - майже 4 тисячі авторів. І можна звернутися до авторитету не однієї людини, а до колективного носія мови.


Повну версію програми слухайте за посиланням

 

Останні новини
Військове кладовище почнуть будувати у середині червня – в.о. Міністра у справах ветеранів
Військове кладовище почнуть будувати у середині червня – в.о. Міністра у справах ветеранів
"Єдині вікна" у ЦНАПах, єКабінет, реабілітація та інструменти для розвитку – Порхун про нову ветеранську політику
"Єдині вікна" у ЦНАПах, єКабінет, реабілітація та інструменти для розвитку – Порхун про нову ветеранську політику
"Це не телешоу, не боротьба за популярність... Це реальні люди з реальними історіями", – Мстислав Чернов
"Це не телешоу, не боротьба за популярність... Це реальні люди з реальними історіями", – Мстислав Чернов
Катерина Радченко: Мета нашого проєкту — порушити глобальну тишу
Катерина Радченко: Мета нашого проєкту — порушити глобальну тишу
У межах Чорного моря має активніше діяти НАТО — Риженко
У межах Чорного моря має активніше діяти НАТО — Риженко
Новини по темі
"Зростання вдвічі-втричі не буде". Експерт про ціни на фіксований інтернет в Україні
Кібероборона. Випуск 6. Види злочинців
Цей глобальний збій Facebook певною мірою нагадує те, що сталося три роки тому — експерт
Ви можете стати здобиччю шахраїв, нікому не передаючи персональні дані — адвокат
"Такі жарти під час війни на адресу окупованого міста неприпустимі": мер Скадовська Яковлєв