Московские физики нашли способ улучшить работу чат-ботов с помощью искусственного интеллекта
Специалисты Московского физико-технического института (МФТИ) нашли способ улучшить работу чат-ботов с помощью искусственного интеллекта (ИИ), рассказали в пресс-служба Физтеха ТАСС.
ФОТО Andrea De Santis on Unsplash
Разработчики лаборатории нейронных систем и глубокого обучения Исследовательского центра прикладных систем ИИ МФТИ предложили новый полуавтоматизированный алгоритм разметки данных для искусственного интеллекта. «Репетиторами» для языковой модели стали краудсорсеры (разметчики на фрилансе), а также ChatGPT. «Теперь на подготовку данных для обучения нейросети нужно в три раза меньше времени и в два раза меньше денег», — отметили в пресс-службе.
Как пояснили ученые, чат-боты нередко ошибаются из‑за того, что не могут точно определить, чего хочет пользователь. Как правило, это связано с тем, что человек выражает свои мысли по‑разному, а диалоговая система чат-бота не знает, как на какие запросы реагировать. Причиной может быть недостаточное количество или качество примеров, на которых обучалась языковая модель чат-бота.
Для подготовки и разметки данных с целью обучения моделей ИИ необходимы специалисты — аннотаторы. Они выполняют роль репетитора: тщательно готовят и разбирают примеры, которые позволяют обучать модели. Этот процесс, называемый разметкой, или аннотацией данных, — долгий (порой до нескольких месяцев) и недешевый.
Основной задачей эксперимента ученых Физтеха была автоматизация аннотации. Они попробовали сымитировать человеческую разметку лингвистических данных для обучения специализированных моделей с помощью другой нейросетевой модели, ChatGPT. К сотрудничеству были привлечены опытные эксперты-лингвисты, которые разработали схемы аннотаций.
Теперь эксперты требуются только для предварительной разметки и разработки иерархической схемы разметки. Время для выполнения задач с помощью ChatGPT разное, но в среднем небольшой диалог может быть аннотирован за 10 минут. Автоматизация труда аннотаторов позволяет готовить достаточное количество качественных обучающих данных для дальнейшего прикладного применения.
Материал опубликован в газете «Санкт-Петербургские ведомости» № 69 (7645) от 16.04.2024 под заголовком ««Репетиторы» для чат-бота».
Комментарии