Новое видео

Бенчмарк LLM моделей на русском языке Как оцениваются LLM Большие языковые модели? 00:00 - Введение и мотивация для рассмотрения бенчмарков LLM 00:38 - Бенчмарк HumanEval для синтеза кода 02:27 - Изучение набора данных HumanEval 03:24 - Бенчмарк MMLU Массовое многозадачное языковое понимание 04:37 - Изучение набора данных MMLU 05:58 - Мета-бенчмарк BigBench с более чем 200 заданиями 06:50 - Изучение задачи на логическое рассуждение в BigBench 08:13 - Подмножество сложных задач BigBench Hard для LLM 08:46 - Примеры задач из BigBench Hard 10:21 - Завершение и другие важные бенчмарки которые не были рассмотрены,
Присоединяйтесь к обсуждению
Новое видео