Сравнительный анализ моделей машинного перевода для англоязычных статей в русский язык

0
67

Цель тестирования состояла в выборе оптимальной модели для перевода англоязычных материалов на русский язык в сценарии, максимально близком к реальной редакционной работе. В качестве тестового стенда использовался изолированный контур benchmark_projects/translation_quality_benchmark, не меняющий основной рабочий конвейер приложения, пользовательский интерфейс и настройки по умолчанию.

Статья объединяет два этапа тестирования. Первый этап зафиксировал исходную базовую линию сравнения и выявил сильное преимущество Gemini 3.1 Flash Lite. Второй этап добавил новые модели-кандидаты, но результаты первого этапа сохраняются в сравнении, потому что они важны для общей картины качества и стоимости.

В первом цикле участвовали:

  • anthropic/claude-haiku-4.5
  • google/gemini-3.1-flash-lite-preview
  • deepseek/deepseek-v4-pro
  • x-ai/grok-4.3
  • openai/gpt-5.4-mini

Во втором цикле состав был обновлён: были добавлены:

  • google/gemini-3-flash-preview
  • qwen/qwen3-next-80b-a3b-instruct
  • meta-llama/llama-3.3-70b-instruct

Из второго повторного прогона были исключены Claude Haiku 4.5, DeepSeek V4 Pro и Grok 4.3, но их предыдущие результаты сохранены в статье как показатели базового сравнения. Это не прямое попарное сравнение с новыми моделями, а межпрогонный ориентир на том же профиле и числе фрагментов.

Итоговый повторный прогон выполнялся по тому же профилю lietaer-pdf-first-20-benchmark на 6 фрагментах. Судейская оценка, как и в предыдущем цикле, выполнялась моделью openai/gpt-5.5-20260423.

Ключевой вопрос обзора остался прежним: какая модель даёт лучший баланс между качеством перевода, редакционной готовностью, устойчивостью и стоимостью при переводе англоязычных статей на русский язык.

Методология

Корпус и режим тестирования

Основной актуальный прогон включал:

  • 1 профиль документа: lietaer-pdf-first-20-benchmark
  • 6 фрагментов исходного англоязычного текста
  • 5 моделей-кандидатов
  • 30 запросов на перевод
  • 30 оценок по критериальной шкале
  • 60 попарных сравнений

Перед вызовом моделей выполнялась проверка языка источника. Все 6 выбранных фрагментов были подтверждены как англоязычные.

Для сохранения исторической базовой линии также учитывается предыдущий полный прогон с судейской оценкой, выполненный на том же профиле lietaer-pdf-first-20-benchmark и тех же 6 фрагментах. Его результаты используются для моделей, исключённых из второго повторного прогона: Claude Haiku 4.5, DeepSeek V4 Pro и Grok 4.3.

Критерии оценки

Сравнение выполнялось по тем же показателям, что и в первом цикле:

  1. Усреднённый взвешенный балл (average_weighted_score) Итоговая числовая оценка качества перевода по нескольким критериям.
  2. Доля побед в попарных сравнениях (pairwise_win_rate) Насколько часто модель выигрывала прямое сравнение с другой моделью на одном и том же фрагменте.
  3. Надёжность выполнения Учитывались критические сбои, пустые ответы и признаки нестабильности.
  4. Редакционные риски Анализировались автоматические флаги качества:
    • непереведённые остатки английского текста
    • повторяющиеся фразы или фрагменты
    • расхождение количества абзацев с исходником
    • нарушение сохранения заголовков или списков

Стоимость Анализировались:

  • средняя стоимость на фрагмент
  • стоимость одного пункта качества
  • оценка стоимости на книгу объёмом 300k слов

Логика итоговой рекомендации

Итоговая рекомендация выводилась не по одной метрике, а по совокупности условий:

  • лидер должен иметь высокий средний балл;
  • лидер должен подтверждать преимущество в попарных сравнениях;
  • модель не должна требовать непропорционально большого объёма ручной правки;
  • дешёвая модель может получить отдельную рекомендацию только если экономия действительно оправдывает умеренное снижение качества.

Сравнительный анализ

Итоговые количественные результаты

Ниже приведена сводная таблица по обоим этапам. Значения второго этапа являются основными для актуальной рекомендации. Значения первого этапа помечены как «базовый прогон», поскольку эти модели не участвовали в новом прямом сравнении после добавления Gemini 3 Flash, Qwen и Llama.

Модель Средний балл Доля побед в попарных сравнениях Средняя стоимость фрагмента Оценка стоимости книги 300k слов Рекомендация
Gemini 3 Flash 88.17 0.9167 0.002921 1.78 лучшая по качеству
Gemini 3.1 Flash Lite 85.33 0.8333 0.001486 0.90 лучшее соотношение цены и качества
Grok 4.3 82.00 0.5714 0.012085 7.36 не рекомендуется
DeepSeek V4 Pro 80.00 0.5833 0.012296 14.38 не рекомендуется
GPT-5.4 Mini 78.00 0.4167 0.004416 2.69 не рекомендуется
Qwen3 Next 80B A3B Instruct 76.83 0.3333 0.001264 0.77 не рекомендуется
Claude Haiku 4.5 69.67 0.2857 0.006879 4.19 не рекомендуется
Llama 3.3 70B Instruct 49.67 0.0000 0.000456 0.28 не рекомендуется

Важно: доля побед у моделей из базового прогона рассчитана внутри первого состава кандидатов. Поэтому её нельзя математически смешивать с попарными результатами второго состава как единую турнирную таблицу. Тем не менее эти данные корректно показывают относительный профиль моделей на том же документном материале.

Gemini 3 Flash

Gemini 3 Flash стала новым лидером теста и получила категорию «лучшая по качеству».

Сильные стороны:

  • лучший усреднённый взвешенный балл: 88.17
  • лучшая доля побед в попарных сравнениях: 0.9167
  • 9 уверенных побед в прямых сравнениях
  • итоговый редакционный вердикт: «можно публиковать после лёгкой правки»
  • умеренная стоимость: 1.78 в оценке на книгу 300k слов

Практический вывод: переход с Lite-версии на базовый Gemini 3 Flash действительно дал качественный прирост. Модель чаще выдавала более зрелый и стилистически собранный русский текст, особенно на длинных аналитических абзацах. При этом рост стоимости оказался умеренным и не изменил общий статус модели как практически пригодной.

Слабые стороны:

  • стоимость выше, чем у Gemini 3.1 Flash Lite
  • отдельные шероховатости в служебных и издательских блоках всё ещё сохраняются
  • полностью безрисковым результат назвать нельзя: фиксировались расхождения количества абзацев (3), повторяющиеся фрагменты (2) и непереведённые остатки английского текста (1)

Однако эти недостатки не меняют главного: в текущем наборе именно Gemini 3 Flash показала лучший суммарный результат.

Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite сохранила очень сильную позицию, но после добавления Gemini 3 Flash перешла из категории абсолютного лидера в категорию «лучшее соотношение цены и качества».

Сильные стороны:

  • усреднённый взвешенный балл: 85.33
  • доля побед в попарных сравнениях: 0.8333
  • минимально низкая стоимость: 0.001486 на фрагмент
  • 0.90 в оценке на книгу 300k слов

Практически это означает следующее: Lite-версия по-прежнему даёт очень высокий уровень качества за почти минимальную цену, но теперь в данных есть модель, которая переводит немного лучше и стабильнее в редакционном смысле.

Слабые стороны:

  • уступает Gemini 3 Flash по верхней планке качества
  • в отдельных местах проигрывает более старшей версии по точности сложных формулировок и гладкости русского текста
  • итоговый худший вердикт в этом повторном прогоне: «пригодно после средней редакторской правки», а не «можно публиковать после лёгкой правки»

Практический вывод: если нужен максимум качества, стоит брать Gemini 3 Flash. Если важнее стоимость при очень хорошем, но не абсолютно лучшем результате, Gemini 3.1 Flash Lite остаётся сильнейшим компромиссным выбором.

GPT-5.4 Mini

GPT-5.4 Mini в новом составе моделей осталась в зоне «не рекомендуется».

Сильные стороны:

  • нет критических сбоев
  • усреднённый взвешенный балл: 78.00, то есть модель не проваливается полностью
  • сохраняет общую понятность и часто корректно передаёт смысл

Слабые стороны:

  • доля побед в попарных сравнениях: 0.4167
  • проигрывает обеим Gemini-моделям с заметным отрывом
  • дороже Gemini 3.1 Flash Lite и при этом хуже по качеству
  • сохраняет повышенный риск непереведённых остатков английского текста: 3

Практический вывод не изменился по сути: это рабочий, но неровный переводчик. Он может выдавать понятный черновик, однако в редакционной готовности и устойчивости уступает лидерам теста.

Grok 4.3

Grok 4.3 участвовала в первом тестовом прогоне 20260505-102309-e66fb250 и не была включена во второй повторный прогон. Её результаты сохраняются как базовая линия для сравнения.

Сильные стороны:

  • высокий балл базового прогона: 82.00
  • доля побед в попарных сравнениях: 0.5714
  • 2 уверенные победы в прямых сравнениях
  • в отдельных фрагментах модель была сильна по буквальной точности деталей

Слабые стороны:

  • высокая стоимость: 0.012085 на фрагмент
  • оценка на книгу 300k слов: 7.36
  • редакционные флаги: повторяющиеся фрагменты (2), расхождение количества абзацев (1), непереведённые остатки английского текста (1)
  • рекомендация осталась «не рекомендуется»

Практический вывод: Grok 4.3 была сильнее большинства слабых кандидатов первого этапа, но проиграла Gemini 3.1 Flash Lite по качеству, цене и общей целесообразности. После появления Gemini 3 Flash её практическая позиция стала ещё слабее: модель дороже обоих Gemini-вариантов и не демонстрирует сопоставимого редакционного преимущества.

DeepSeek V4 Pro

DeepSeek V4 Pro также участвовала в первом тестовом прогоне и была исключена из второго из-за проблем с надёжностью.

Сильные стороны:

  • на успешных фрагментах качество было приемлемым: усреднённый взвешенный балл 80.00
  • доля побед в попарных сравнениях в базовом прогоне: 0.5833
  • 1 уверенная победа в прямом сравнении
  • Критические слабые стороны:
  • 3 неуспешно обработанных фрагмента из 6
  • зафиксированы сбой API и пустой ответ
  • самая высокая стоимость в базовом прогоне: 0.012296 на фрагмент
  • оценка на книгу 300k слов: 14.38

Практический вывод: DeepSeek V4 Pro нельзя рекомендовать как рабочую модель для перевода в основном сценарии, даже если отдельные успешные ответы выглядят неплохо. Для реального рабочего процесса стабильность важнее локальных удачных фрагментов, а 50% критических сбоев на малом тесте являются блокирующим риском.

Qwen3 Next 80B A3B Instruct

Ожидание от Qwen как от сильной русскоязычной модели не подтвердилось на этом тесте в достаточной мере.

Сильные стороны:

  • очень низкая стоимость: 0.001264 на фрагмент
  • 0.77 в оценке на книгу 300k слов
  • структурно результат чаще выглядел аккуратно разбитым на блоки

Слабые стороны:

  • усреднённый взвешенный балл: 76.83
  • доля побед в попарных сравнениях: 0.3333
  • много стилистических и смысловых сбоев на длинных абзацах
  • фиксировались повторяющиеся фрагменты (3), расхождение количества абзацев (2), нарушение сохранения заголовков (1) и списков (1)

Практический вывод: дешёвый профиль выглядит привлекательно, но качество оказалось недостаточно стабильным. Судья неоднократно отмечал кальки, неестественные обороты и локальные смысловые искажения, особенно там, где требовался не просто дословный перевод, а хорошая литературная редактура.

Llama 3.3 70B Instruct

Llama 3.3 70B Instruct показала худший результат всего сравнения.

Сильные стороны:

  • самая низкая стоимость: 0.000456 на фрагмент
  • очень дёшево в пересчёте на книгу: 0.28

Слабые стороны:

  • усреднённый взвешенный балл: 49.67
  • доля побед в попарных сравнениях: 0.0
  • 0 уверенных побед в прямых сравнениях
  • итоговый вердикт: «только черновик»
  • судейская модель стабильно отмечала буквальность, грамматические ошибки и грубые кальки

Практический вывод: низкая цена здесь не компенсирует качество. Несмотря на ожидания о сильном alignment и дисциплине форматирования, именно в задаче книжно-редакционного перевода модель оказалась слабее всех остальных кандидатов.

Claude Haiku 4.5

Claude Haiku 4.5 была частью первого тестового прогона и сохраняется в статье как кандидат базового сравнения.

Сильные стороны:

  • все 6 фрагментов были завершены без критических сбоев
  • результат был в целом пригоден как черновик после средней редакторской правки

Слабые стороны:

  • самый низкий балл среди кандидатов базового прогона: 69.67
  • доля побед в попарных сравнениях: 0.2857
  • 0 уверенных побед в прямых сравнениях
  • стоимость выше, чем у обоих Gemini-вариантов: 0.006879 на фрагмент
  • оценка на книгу 300k слов: 4.19

Практический вывод: модель стабильна технически, но не конкурентна по качеству и цене. В объединённом сравнении она остаётся ниже GPT-5.4 Mini, Qwen и всех Gemini-вариантов.

Практические примеры

Ниже приведены характерные примеры из нового повторного прогона, которые показывают различия между моделями на реальных фрагментах.

Пример 1. Gemini 3 Flash против Gemini 3.1 Flash Lite на служебном фрагменте

Во фрагменте f01 судья неожиданно отдал небольшое преимущество Lite-версии над базовым Gemini 3 Flash.

Причина, указанная судейской моделью:

candidate_A звучит более естественно и аккуратно оформляет контактную и издательскую информацию; также лучше переводит пояснение к пометке о разрешениях. candidate_B местами точнее, например в посвящении и термине «ссудный процент», но имеет заметно неудачную формулировку «Участь хуже долговой» и более шероховатые заголовки.

Фрагмент у Gemini 3 Flash:

## San Francisco, California 94104-2916
...
1 Крах денег: общество конкуренции 11 2 Миф о деньгах: чем они являются на самом деле 23 3 Участь хуже долговой: скрытые последствия ссудного процента 37

Фрагмент у Gemini 3.1 Flash Lite:

## Сан-Франциско, Калифорния 94104-2916
...
1 Провал денег: общество конкуренции 11
2 Миф о деньгах: что это такое на самом деле 23
3 Судьба хуже долга: скрытые последствия процентов 37

Что показывает этот пример:

  • старшая модель не выигрывает автоматически каждый отдельный фрагмент;
  • Lite-версия иногда аккуратнее именно в служебной и издательской зоне;
  • победа Gemini 3 Flash в общем зачёте объясняется не абсолютным доминированием на каждом блоке, а более сильным общим качеством на всей выборке.

Пример 2. Gemini 3 Flash против Gemini 3.1 Flash Lite на длинном аналитическом фрагменте

Во фрагменте f06 уже базовый Gemini 3 Flash оказался сильнее.

Причина, указанная судейской моделью:

Оба перевода качественные и в целом точные. candidate_B немного естественнее по-русски и точнее передает «single type of currency» как «единственного типа валюты», тогда как у candidate_A «единая валюта» может неверно ассоциироваться с одной общей валютой.

Это важный результат: именно на сложных аналитических кусках, где нужна смысловая точность и стилистическая гладкость одновременно, Gemini 3 Flash чаще и отрывалась от Lite-версии.

Практический смысл:

  • Gemini 3.1 Flash Lite остаётся отличным экономичным вариантом;
  • Gemini 3 Flash лучше там, где важна финальная редакционная зрелость текста, а не только очень хороший черновик.

Пример 3. Почему Qwen не оправдала ожиданий

Во фрагменте f06 судейская модель довольно жёстко описала слабые места Qwen:

candidate_E содержит ряд смысловых и стилистических сбоев: «одной-единственной валюты» может исказить идею типа валюты, «сделать банковские деньги незаконными» теряет компонент debt money, «Сама по себе денежная система становится эмоционально заряженной» неверно заменяет деньги системой, а финальная фраза «уже тихая эволюция идёт впереди» звучит неестественно и неясно.

Из самого перевода Qwen:

...монокультура одной-единственной валюты...
...сделать банковские деньги незаконными...
...Сама по себе денежная система становится эмоционально заряженной.
...уже тихая эволюция идёт впереди...

Это хороший пример модели, которая формально переводит связно, но регулярно уводит смысл или выбирает неудачные обороты. Для технического или публицистического перевода это уже заметный риск.

Пример 4. Почему Llama провалилась несмотря на низкую цену

Во фрагменте f06 судейская модель назвала проблемы Llama системными:

candidate_D содержит многочисленные кальки и ошибки: «в четырех десятилетиях», «Еще один, более глубокий, препятствие», «последний великий табу», «система денег», а также добавляет смысловое смягчение «одной из основных причин», которого нет в источнике.

Из перевода Llama 3.3 70B Instruct:

...в четырех десятилетиях между 1970 и 2010 годами...
...Еще один, более глубокий, препятствие...
...Деньги - это последний великий табу.
...нашу систему денег...

Эти ошибки не выглядят как мелкая редактура. Они создают ощущение сырого дословного машинного перевода, который нельзя рекомендовать как рабочую основу для качественного русскоязычного текста.

Итоговое резюме

Сильные и слабые стороны моделей

  • Gemini 3 Flash
    • лучший общий балл качества
    • лучший результат в попарных сравнениях
    • заметно более зрелый текст на сложных аналитических фрагментах
    • умеренная, а не экстремальная стоимость
  • Gemini 3.1 Flash Lite
    • очень близка к лидеру по качеству
    • лучший практический компромисс между стоимостью и качеством
    • иногда даже сильнее старшей версии на служебных блоках
  • GPT-5.4 Mini
    • смысл чаще сохраняется, чем ломается
    • остаётся неровной и редакционно менее чистой
    • проигрывает обеим Gemini-моделям и по качеству, и по соотношению качество/цена
  • Grok 4.3
    • сильный результат базового прогона на отдельных фрагментах
    • дорогой
    • не даёт преимущества над Gemini при заметно большей стоимости
  • DeepSeek V4 Pro
    • приемлемое качество на успешных ответах
    • критически ненадёжен из-за 3 критических сбоев из 6
    • самый дорогой кандидат базового прогона
  • Qwen3 Next 80B A3B Instruct
    • дёшево
    • структурно часто аккуратно
    • недостаточно точна и стилистически нестабильна для рекомендации
  • Claude Haiku 4.5
      • технически стабилен
      • заметно уступает по качеству и итоговой конкурентности
      • не оправдывает стоимость относительно Gemini Lite
  • Llama 3.3 70B Instruct
      • экстремально дёшево
      • но качество перевода слишком низкое для практического использования

Практическая интерпретация результатов

Обновлённый повторный прогон важен тем, что он ответил сразу на два вопроса:

  1. Стоит ли тестировать старшую Gemini-версию после победы Lite? Да. Gemini 3 Flash действительно оказалась лучше Gemini 3.1 Flash Lite и стала новым абсолютным лидером.
  2. Могут ли дешёвые модели с открытыми весами вроде Qwen и Llama вытеснить Gemini в этой задаче? По текущим данным — нет. Они интересны по цене, но не дотягивают по качеству и редакционной готовности.

При этом важное практическое уточнение такое:

    • если нужен максимум качества, лучший выбор — Gemini 3 Flash;
    • если нужен лучший компромисс качества и стоимости, лучший выбор — Gemini 3.1 Flash Lite.

С учётом результатов базового прогона предыдущие модели также остаются в сравнительной картине:

  • Grok 4.3 был наиболее сильным из исключённых кандидатов, но слишком дорог и не лучше Gemini;
  • DeepSeek V4 Pro показал неплохие оценки на успешных фрагментах, но провалился по надёжности;
  • Claude Haiku 4.5 технически стабилен, но слишком слаб по качеству;
  • ни одна из исключённых моделей не меняет итоговую рекомендацию после добавления Gemini 3 Flash.

Заключение

По результатам обновлённого тестирования оптимальной моделью для перевода англоязычных статей на русский язык следует признать google/gemini-3-flash-preview.

Эта рекомендация опирается на фактические метрики:

  • усреднённый взвешенный балл: 88.17
  • доля побед в попарных сравнениях: 0.9167
  • количество уверенных побед в прямых сравнениях: 9
  • итоговый редакционный статус: «можно публиковать после лёгкой правки»

При этом обновлённый тест дал и второй важный вывод: google/gemini-3.1-flash-lite-preview остаётся лучшим вариантом по соотношению качества и цены и заслуживает отдельной категории «лучшее соотношение цены и качества».

Итоговая практическая рекомендация выглядит так:

      1. Для наилучшего качества перевода использовать Gemini 3 Flash.
      2. Для максимально эффективного компромисса между стоимостью и качеством использовать Gemini 3.1 Flash Lite.
      3. GPT-5.4 Mini, Grok 4.3, DeepSeek V4 Pro, Qwen3 Next 80B A3B Instruct, Claude Haiku 4.5 и Llama 3.3 70B Instruct по текущим данным не являются оптимальными основными моделями для этой задачи.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь
Captcha verification failed!
оценка пользователя капчи не удалась. пожалуйста свяжитесь с нами!