Олег Макаренко (olegmakarenko.ru) wrote,
Олег Макаренко
olegmakarenko.ru

Categories:

Нейросеть сдала ЕГЭ, нейросеть-контролёр и опенсорсная нейросеть «Сайга»



1. Нейросеть от Яндекса доказала, что она знает литературу не хуже обыкновенного школьника, а то и некоторых взрослых (ссылка):
 
Языковая модель YandexGPT 2 стала первой нейросетью, успешно сдавшей ЕГЭ по литературе, набрав 55 баллов. Этот результат превышает минимальный порог для поступления в вуз и приближается к среднему баллу российских школьников. <…>

ЕГЭ по литературе включает в себя различные задания, такие как вопросы на эрудицию, оценку стиля письма и творческих способностей. YandexGPT 2 успешно прошла все этапы: в первой части экзамена модель проанализировала литературное произведение и ответила на вопросы о нем, а во второй части написала сочинение на заданную тему. Работы нейросети проверили живые люди — настоящие специалисты ЕГЭ, которые проверяют работы сотен выпускников ежегодно.

Стоит отметить, что специалисты Яндекса использовали реальные варианты ЕГЭ, применявшиеся на тренировочных экзаменах с 2021 по 2023 годы. Они убедились, что в обучающем наборе данных для YandexGPT 2 ответов на эти вопросы не было.

Основное отличие между сдающими ЕГЭ школьниками и YandexGPT 2 заключается в том, что ученики специально готовятся к экзамену, погружаясь в специфику предмета, в то время как нейросеть работала без специальной подготовки, опираясь только на свои знания. Это сравнимо с тем, как сдавал бы ЕГЭ взрослый человек, не готовившийся к экзамену.


Обычно я весьма скептически отношусь к Алисе, так как она ведёт себя как робкая институтка, отказываясь отвечать даже на самые невинные вопросы, если те имеют хоть малейшее отношение к сложным темам типа политики или взаимоотношений полов. Скрытность — фирменный стиль компании. К примеру, на картах Яндекса нет границ между государствами, чтобы никого не обидеть, а прямо сейчас на Хабре разгорается скандал из-за национального корпуса русского языка, доступом к которому Яндекс отказывается делиться с другими разработчиками ИИ.

Вместе с тем, конкретно по пересказам русской классики ЯндексЖПТ выигрывает у ЖПТ-4. Сравните два пересказа чеховской «Душеньки», первый — от Яндекса, второй — от ЖПТ-4:





Оба пересказа плохи, но пересказ от Яндекса гораздо ближе к сути, тут он побеждает. Впрочем, подобные эксперименты надо ставить на новых текстах — на текстах, на которые робота точно не натаскивали заранее. Мне этого сделать не удалось, так как на просьбу пересказать любой текст из моего блога Алиса отвечала так: «такие темы я не обсуждаю, чтобы никому не было обидно или неприятно».


2. Если нейросети уже достаточно хороши, чтобы сдавать экзамены, значит они вполне могут участвовать и в их проверке (ссылка):
 
Рособрнадзор планирует пропускать через нейросеть работы со всех регионов России на Едином госэкзамене со следующего учебного года, сообщил на пресс-конференции руководитель ведомства Анзор Музаев.

"Да, мы планируем всю страну осматривать, пропускать через нейросеть. И, конечно же, окончательное решение принимает не нейросеть, она только фиксирует, ставит метки, а метки уже человек модератор просматривает и дает окончательный вердикт, действительно там был телефон или шпаргалка или нет", – объяснил он.


Вот это хороший план. Если всё продумать, то в качестве первого звена лучшие нейросети нынешнего поколения будет здорово помогать. Вопрос только вот в этом «всё продумать». Как показывает опыт, государственные структуры часто проваливаются, когда от них требуется пригласить умного человека, чтобы тот объяснил, как правильнее будет всё организовать.


3. Владислав Январёв, автор проекта по созданию удобного доступа к основным российским и иностранным нейросетям (ссылка), пишет, что развитые нейросети бывают не только закрытыми, но и опенсорсными, и приводит в пример отечественную разработку (ссылка):

Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API. <…>

У нас есть замечательный товарищ, Илья Гусев (на Хабре @Takagi), который берёт некоторые из выходящих зарубежных сетей, и дотренировывает их на русских датасетах (которые он же частично и собрал).

Как результат – у него вышла целая серия опенсорс нейросетей Сайга, в основе которых лежат разные базовые модели <…>

— Вопрос-ответ – хорошие результаты
— Кодогенерация – в общем, тоже хорошие результаты
— Суммаризация – не очень. Думаю, это связано с тем, что сеть всего 7B, а также с тем, что вроде в датасетах Сайги не очень много данных на суммаризацию.
— Knowledge (общие знания без контекста) – также не очень, но тут и сеть всего-то 7B параметров, не удивительно, что специальных знаний там нет.
— Креативность – на мой взгляд, не очень (хотя я интуитивно сравниваю с ChatGPT). При температуре=0.1 отвечает сухо, при 1.0 часто возможен бред; да и вообще стилистика не очень.

Имхо, для вопросно-ответных задач модель очень даже подходит.


Я немного повозился с Сайгой-Мистралью, действительно, интересный продукт. Пока что результатами отечественных разработок я не восхищён, однако они вполне на уровне. Предположу, что сейчас мы отстаём от ОпенАИ примерно на год-два. Это несущественный отрыв.

Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 16 comments