Поточний стан справ

За оцінками Mordor Intelligence, ринкова вартість машинних систем перекладу зростає на 7,1% на рік, з $153,8 млн у 2020 році до $230,67 млн у 2026-му.

У міру того як технології машинного та глибокого навчання стають дедалі розумнішими, результати, одержані системами машинного перекладу, стають дедалі точнішими. І це залежить від їхнього навчання людиною.

У лінгвістичній сфері роботів вчать перекладати тексти так, щоб замовник отримав винятково коректний результат. Використовується та вдосконалюється машинний переклад на базі фраз. Проблема тут у контексті та багатозначності слів. Наприклад, стіл може бути накритим у побутовій лексиці, операційним — у медичній. Театр — це не лише гра акторів у культурному контексті, а й місце бойових дій, якщо йдеться про війну.

Машини неспроможні визначати контекст, у якому використовується слово, їм важко побачити текст загалом. Бо вони не люди. Це банально, але розібратися у тонкощах контракту між двома акторами чи локалізувати рекламний текст може лише людина. Робот у його діяльності перекладача закриває рутинні процеси. Промислове обладнання може зробити деталь для автомобіля, а система машинного перекладу — деталь тексту. Причому повторювану.

Як ми навчали свої двигуни машинного перекладу

У діяльності нашої лінгвістичної компанії ми будуємо мости між людиною та роботом. У тому сенсі, що без них обох нам нема чого робити на ринку. Можу порівняти нас із дизайнерами. Adobe Photoshop виконує функції робота, а сам дизайнер — людина. Разом вони створюють продукт — елемент юзабіліті сайту, колаж, фотографію для журналу.

Ми взяли великий двомовний масив даних (оригінал та переклад, виконаний якісно та вручну, людиною) в одній тематиці та в одній мовній парі (наприклад, фармацевтика, з англійської на українську), анонімізували її та натягнули на двигун машинного перекладу.

Це підвищує якість сирого машинного перекладу у мовній парі в цій тематиці. Тому що ми дали машині інформацію, як ми хочемо перекладати те чи інше слово з англійської на українську в такому контексті (фармацевтика). Надалі, коли ми перекладатимемо щось «машинкою» у цій же мовній парі та тематиці, то фрази, що збігаються з нашою вже навченою базою, будуть перекладатися правильно, саме так, як ми навчили робота.

Глобальні провайдери машинного перекладу одночасно з нашим точковим навчанням (яке роблять багато лінгвістичних компаній у світі) самостійно навчають свої «движки». Ми у цьому беремо участь ручним перекладом, і наша команда за це отримує гроші.

Як я говорив, для навчання потрібні величезні масиви даних. На основі повторюваності провайдер обирає найбільш «популярні» дані (які користувачі, наприклад, шукають в інтернеті) і може замовити їхній ручний переклад, щоб згодом навчити свій «движок».

Оптимальні результати машинного перекладу починаються з адекватної постановки завдання та технологічних рішень перекладу. Можливості машинного навчання та глибокого навчання мають розроблятись командою компетентних фахівців-людей, яким доручено регулярно стежити за цим. Це не тільки й не так лінгвісти-перекладачі, як інженери.

У підсумку

Філософ Рене Декарт у 17 столітті відповів на запитання з майбутнього: чи може робот копіювати людину? «Якби зробити машини, які мали б схожість з нашим тілом і наслідували б наші дії, наскільки це мислимо, то у нас все ж таки було б два вірні засоби дізнатися, що це не справжні люди. Така машина ніколи не могла б користуватися словами або іншими знаками, поєднуючи їх так, як це ми робимо, щоб повідомляти іншим свої думки», — писав він.

Таким чином роботи замінюють людину в рутинній роботі, як верстати полегшили діяльність людини під час індустріальної революції 1700-х років та призвели до економічного зростання. Перекладач витрачає менше часу на текст, але якість перекладу не погіршується, тому що контролює та моніторить результат все одно людина.

Першоджерело за посиланням.