Chat with us, powered by LiveChat

Процесс настройки системы машинного перевода

Для запуска новой системы настраиваемого машинного перевода Trusted Translations проводит начальную настройку.

Далее описан стандартный процесс настройки системы машинного перевода.

Индивидуальная настройка системы МП для каждой языковой пары

Процесс обучения, необходимый для создания качественной системы МП, во многом зависит от специфики предметной области. Поэтому образцы аналогичного контента будут чрезвычайно полезны для создания соответствующей обучающей программы, следовательно, высококачественной системы для каждой языковой пары. Существуют различные варианты сбора обучающих данных для создания настраиваемой системы.

  • Существующие переведенные материалы:

    Идеальной отправной точкой для любой настраиваемой системы МП является поиск и использование ранее переведенных материалов, содержащих контент, который очень похож на тексты, которые необходимо перевести. Чем больше ранее переведенных материалов можно использовать, тем дешевле и быстрее будет процесс.

  • Существующие одноязычные данные:

    Если существует достаточное количество исходного контента, из него можно извлечь одноязычные предложения, которые затем будут переводиться профессиональными переводчиками. Создавая набор параллельных данных для каждой языковой пары, мы можем создать базу данных для создания и обучения собственной системы.

  • Создание специализированного массива данных из других источников:

    В дополнение к одноязычным данным, мы проводим поиск в Интернете материалов, которые тесно связаны с переводимым контентом. Поскольку по своей природе системы машинного перевода являются статистическими системами, необходимы как параллельные, так и одноязычные данные. На первом этапе мы используем данные, предоставленные клиентом, параллельно с информацией, полученной из Интернета, чтобы продемонстрировать эффективность этого подхода.

    Прежде чем использовать найденные в Интернете параллельные данные в качестве обучающего массива для системы МП, необходимо их проверить (проверить орфографию, сопоставление фрагментов, удалить дубликаты и прочее). В этом случае требуется гораздо больше работы по сравнению с тем, когда клиент с самого начала может предоставить достаточное количество сопоставленных двуязычных данных хорошего качества. Создание новой системы может занять от 4 до 6 недель.

По мере того, как переведенные данные проходят постредактирование, они также могут использоваться для обучения системы. Таким образом, со временем качество машинного перевода довольно быстро улучшается.

Качество работы систем настраиваемого машинного перевода улучшается благодаря интеграции результатов проверки перевода.

Существуют различные рабочие процессы, в которых используются настраиваемые системы машинного перевода. Одним из распространенных вариантов такого использоваться является постредактирование машинного перевода человеком. В рамках этого рабочего процесса выходные данные из системы настраиваемого машинного перевода редактируются одним из опытных переводчиков. В результате мы получаем более качественный текст, который также используется для обучения системы машинного перевода. Редактор улучшает качество перевода, одновременно обучая систему машинного перевода. Чем больше фраз проходит через систему, тем эффективнее она работает. Со временем разрыв в качестве между переводом, полностью сделанным человеком, и этим решением значительно сокращается. Кроме того, в таком проекте время выполнения и затраты будут значительно меньше. По нашему мнению, такие системы станут ценным активом для любого клиента, у которого есть потребность в подобном решении.