Экзамен для ИИ-модели

Дообученная Gemma-2 с методом SimPO обходит ИИ-детекторы в 67% случаев на кулинарных текстах и 64%на юридических.

Команда ReText.AI опубликовала детальное исследование эффективности своей модели «очеловечивания» ИИ-текста. В основе решения лежит дообучение модели Gemma-2-9B-IT (с использованием unsloth) методом SimPO (Simple Preference Optimization). Этот подход оптимизирует качество генерации без необходимости вручную размечать предпочтения.

Источники данных

Исходные данные взяты из двух академических источников: датасет COLING-2025 (воркшоп по детекции машинного текста, сабтаск B), который включает русскоязычные и англоязычные тексты, а также AINL-eval с научными публикациями.

Для каждого исходного человеческого текста были сгенерированы «машинные» варианты с помощью восьми моделей разного масштаба. В их число вошли Llama-3.2 (3B параметров), Qwen3-8B (8B), GigaChat-2-Max, GLM-4.6, Llama-3.3-70B (70B), GPT-oss-120B (120B), Qwen3-235B-A22B (235B) и T-pro-it-1.0. Таким образом, датасет охватил модели от компактных до самых крупных открытых аналогов GPT.

Итоговый датасет составил 19 804 пары текстов, автоматически распределенных по 20 тематическим кластерам – от кулинарных рецептов до ИТ-разработки и правовых документов.

Метрики и показатели

Ключевая метрика – humanizer_score – рассчитывается как разница между вероятностью ИИ-авторства до обработки и после обработки, умноженная на коэффициент уверенности детектора. Иными словами, метрика показывает, насколько сильно модель «очеловечивания» снижает подозрения детектора.

До обработки медианная вероятность того, что детектор сочтет текст ИИ-сгенерированным, составляла 0.93. После обработки этот показатель составил 0.47. Лучший результат по средней дельте показали рецепты – прирост «очеловеченности» равен 0.518.

Еще один важный показатель – Hard Flip Rate, то есть доля текстов, которые после обработки детектор перестал считать ИИ-генерацией и «перевернул» свой вердикт. В категории рецептов этот показатель достиг 66.7%. Всего из 20 тематических категорий в 14 доля таких «перевернутых» решений превысила 50%.

Первая пятерка

В топ-5 категорий по Hard Flip Rate входят:

  • Рецепты и кулинария –7%.
  • Правовые системы –2%.
  • Бизнес и анализ рынка –0%.
  • Научные исследования –8%.
  • Управление персоналом –9%.

Наиболее сложными категориями оказались повседневные тексты (41.0%), многоязычные тексты (43.6%) и цифровые технологии (44.0%). Разработчики объясняют это тем, что обучающий датасет был преимущественно русско- и англоязычным, а также высокой вариативностью стиля в этих доменах.

Общие выводы

Для более чем 90% текстов «очеловечивание» снижает вероятность обнаружения ИИ.

Метод SimPO показал высокую эффективность даже на компактной модели в 9 млрд параметров. Для ее запуска не требуется огромных вычислительных мощностей.

Структурированные домены – право, бизнес, наука – обрабатываются лучше всего, тогда как основной вызов характерен для многоязычных текстов.

источник: PRonline

Поделиться:



Следите за нашими новостями в
MAX-канале Connect-WIT

Спецпроект

Цифровой девелопмент

Подробнее
Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее