11 класс, ГАОУ МО «Балашихинский лицей», Московская область Абсолютный победитель Всероссийской олимпиады по ИИ-2023
Гринюк Илья
И: Представься, пожалуйста. Илья Гринюк: Меня зовут Илья Гринюк, я из Балашихи, города в Московской области. Учусь в 11-м классе лицея. И: Расскажи о своей подготовке к Олимпиаде. Илья Гринюк: Я занимаюсь искусственным интеллектом достаточно давно, около 3-4 лет. Моя подготовка была выборочной. У меня были некоторые пробелы в построении рекомендательных систем, и эти пробелы я как раз успешно закрыл дополнительными занятиями и собственной подготовкой ко второму и заключительному этапам Олимпиады. И: Как именно готовился? Илья Гринюк: Я находил соревнования на разных платформах, например, Kaggle и других, и решал похожие задачи на них. Там можно было посмотреть свой результат и понять, насколько хорошо я решил ту или иную задачу. И: Есть ли у тебя наставник? Илья Гринюк: Да — Мария Трофимова, куратор одного моего проекта. Она мне помогает готовиться к олимпиадам и была преподавателем в одну из моих проектных смен. Я занимаюсь проектами, связанными с искусственным интеллектом. У меня есть личный проект, который я разрабатывал полностью самостоятельно. Это сервис для быстрой проектировки жилых помещений, который ускоряет людям поиск квартиры. Я участвовал в разработке двух проектов совместно с разными компаниями. Один — с компанией ВТБ. Мы разрабатывали аналитический сервис на открытых данных, который помогает анализировать большие объёмы информации, например, отзывов какой-то компании. Ещё я был тимлидом в команде от Тинькофф. С ними прошлым летом на базе образовательного центра Sirius мы разрабатывали эмпатичного голосового помощника, который может понимать эмоции. И: Есть ли какие-то планы на будущие проекты? Илья Гринюк: Я в целом был бы рад поучаствовать в любых проектах, которые мне предложат. Конкретно на этот год я, наверное, не планирую себе какую-то проектную деятельность, так как сейчас у меня 11 класс и нужно готовиться к ЕГЭ, олимпиадам для того, чтобы поступить в вуз. Но дальше я, наверное, сотрудничал бы с Тинькофф или ВТБ. И: Какие Олимпиадные задания вызвали наибольший интерес? Илья Гринюк: Во втором этапе олимпиады была достаточно интересная задача про рекомендательные системы. Было много вариантов того, как к ней можно было подойти. На неё, наверное, потратил больше всего времени. И: Может, назовешь какое-то самое простое? Илья Гринюк: Самое простое, если я правильно помню название, квартирография. Мне она нравится, так как задания, связанные с искусственным интеллектом, достаточно интересные. Их можно решить многими способами. Они продуманы. То есть нам даны не особо синтетические данные. Я бы сказал даже, что они с какой-то стороны реальные. И опыт решения таких задач очень важен, так как он потом, я считаю, пригодится в будущем. Думаю, решая такие задачи, я становлюсь опытнее. И: Важным этапом любой задачи является EDA (EDA - exploratory data analysis). Что в рамках решения обеих задач полезного получилось узнать при анализе, что поспособствовало улучшению качества решения? Илья Гринюк: В первую очередь, я выделил для себя категориальные признаки в обеих DataSet. Важным был также еще баланс классов, так как при анализе финального решения модели можно посмотреть, какие классы она выдала и понять заранее насколько хорош будет score. И: Задача на предсказание клика включала в себя анонимизированные данные без описания. Как в таком случае Вы подходили к анализу признаков? Как и какие зависимости изучали? Может, как-то оценивали важность признаков или использовали сразу все как есть? Илья Гринюк: Для начала я построил матрицу корреляции признаков, но она мне ничем не помогла. Дальше я заполнил пропуски в DataSet, предобработал категориальные фичи, для того чтобы смог дальше их положить в модель и обучил их CatBoost. И: Делали ли дополнительные признаки? Илья Гринюк: В первой задаче я вводил дополнительные признаки в виде эмбеддингов, картинок, текста и схожести этих двух эмбеддингов. А во второй задаче я только заменил один признак на другой. И: Помимо решения задачи как таковой ты участвовал в соревновании. Делал что-нибудь, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Илья Гринюк: Да, в первой задаче. Я решал её 5 с половиной часов с помощью модели Ruclip, а потом заметил закономерность в выходах модели и решил немножко помочь ей, потому что классы были почти отсортированы. Я заслал отсортированные классы, и это дало мне четвёртое место в лидерборде по этой задаче. А во второй задаче я работал с вероятностями, которые выдавал мне CatBoost, то есть брал от них средние, вычитал средние, брал вероятности двух моделей, DeepFM и CatBoost, брал их средние, средневзвешенные и т.д., то есть пытался добиваться максимально хорошего score. И: Что ты пожелаешь будущим участникам? Илья Гринюк: Я бы пожелал им не волноваться и не бояться реализовывать свои идеи, так как творчество в машинном обучении искусственного интеллекта всегда очень хорошо. Ты никогда не можешь быть уверен, какая из твоих идей подойдёт больше всего.
11 класс, МБОУ «Гимназия № 4», Новосибирская область Победитель Всероссийской олимпиады по ИИ-2023
Ильтяков Никита
И: Представься, пожалуйста. Никита Ильтяков: Никита Алексеевич Ильтяков, учусь в 11 классе гимназии №4 города Новосибирска. И: Ты финалист олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как проходила твоя подготовка? Никита Ильтяков: Я уже с 7 класса занимаюсь искусственным интеллектом и машинным обучением. Сначала я просто заинтересовался, начал поверхностно что-то смотреть, читать. Потом начал участвовать в олимпиадах, реализовывать какие-то свои проекты. Несколько раз ездил в образовательный центр "Сириус". В общем, это и было моей подготовкой. И: Есть ли у тебя какой-то наставник? Никита Ильтяков: Учитель в школе, который разбирается в машинном обучении. Я сейчас с ним обсуждаю новости в этой области или проекты, но большую часть времени я занимаюсь сам. И: Проходил ли ты какие-нибудь курсы? Никита Ильтяков: Да, в МФТИ есть открытый бесплатный курс. Там несколько потоков, я проходил первый и второй — это достаточно интересно. И: Расскажи, пожалуйста, почему для тебя интересно машинное обучение? Никита Ильтяков: Я начинал заниматься просто программированием. И в какой-то момент я упёрся в потолок, когда ты вроде умеешь реализовывать достаточно много задач с помощью программирования, но какие-то задачи, например, распознавание голоса, работа с текстом — ты не можешь сделать, потому что изначально их может сделать только человек. Например, на картинке отличить кота и собаку. Тогда это ещё было не очень популярно, и это казалось магией. Поэтому я заинтересовался и решил сделать что-то сам. И: Есть ли какие-то собственные проекты? Никита Ильтяков: Да, у меня был большой проект, которым я занимался несколько лет. Это рекомендательная система для подготовки к ЕГЭ. Сейчас школьник готовится к ЕГЭ так: открывает сайт "Решу ЕГЭ" и решает вариант один за другим, что не очень оптимально. Гораздо лучше выстроить персонализированную траекторию: она учтёт, что отдельно каждый школьник знает или не знает, и в зависимости от этого порекомендует задание, которое максимизирует эффективность и продуктивность подготовки. И: Это по какому-то определённому предмету? Никита Ильтяков: Получилось создать модель, которую можно адаптировать к любому предмету, я проверял на обществознании. Но она не зависит от предмета. И: Был ли этот проект введён в практику? Никита Ильтяков: Нет, я протестировал на реальных данных реальных пользователей с платформы "Решу ЕГЭ", но в практику ещё не вводил. И: Какие задания олимпиады были для тебя наиболее интересные на основном этапе? Никита Ильтяков: Я — призёр олимпиады прошлого года, поэтому я прошёл на олимпиаду без отбора этого года. И: Важным этапом любой задачи является EDA (EDA - exploratory data analysis). Что получилось узнать полезного в рамках решения обеих задач при анализе и что помогло улучшить качество решения? Никита Ильтяков: Первая задача была мультимодальной: необходимо было определять релевантность текста запроса и картинки. После проведения визуального анализа я понял, что достаточно много значит семантика изображения, что изображено на картинке, поэтому было бы логично применить визуальные эмбеддинги. После этого я попробовал применить модель Clip, которая как раз таки и генерирует эмбеддинги. Для схожей картинки и текста, соответствующей картинки. Например, на картинке изображен тигр и есть подпись «Тигр». Они будут близко в векторном пространстве, поэтому можно взять косинус на расстояние и использовать это как признак в дальнейшем решении. Что касается второй задачи, то я проанализировал корреляцию признаков в таблице с целевой переменной, кликнет пользователь на рекламу или нет. Это позволило понять, на основе каких признаков можно сгенерировать новые, с помощью нелинейных преобразований или, возможно, каких-то агрегаций, дальше уже использовать их при подаче в градиентный бустинг. И: Задача на предсказание клика включала в себя анонимизированные данные без описания. Как в таком случае ты подходил к анализу признаков? Как и какие зависимости изучал? Никита Ильтяков: В первую очередь я опирался на тип признака: категориальная это переменная или линейная, смотрел на распределение с помощью гистограмм, определял корреляцию с целевой переменной. Уже в зависимости от этих параметров понимал, как дальше с ней работать. Если это категориальный признак или, допустим, линейный, но с явно выделенными диапазонами, то его можно, соответственно, кодировать с помощью, например, One-hot Encoding или Target-кодирования, что я, в общем, и делал. И: Делали ли какие-то дополнительные признаки? Никита Ильтяков: Да, я использовал Feature engineering, активно агрегируя пользователей по группам, в зависимости от категориальных признаков я генерировал новые. Например, из даты извлекал время суток, день, месяц и тоже подал градиентный бустинг. И: Помимо решений задачи как таковой, ты всё же участвовал в соревновании. Применял какие-либо действия, чтобы оптимизировать метрику качества, не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Никита Ильтяков: Наверное, совсем "взломом" это назвать нельзя, но я использовал постпроцессинг. Для этого я смотрел на получившееся распределение вероятностей во второй задаче, насколько оно близко к распределению вероятностей в исходном датасете, и за счёт коэффициента EBS сдвигал его для максимальной похожести. В первой задаче тоже можно было применить что-то похожее, посмотрев на распределение целевых классов. И: Какие эмоции ты испытываешь во время участия в подобного рода мероприятиях? Никита Ильтяков: На самом деле, это всегда немного волнительно, но кроме того, я был очень рад встретить друзей. У нас уже сформировалось достаточно дружное комьюнити, я приехал сюда, зная уже половину людей, поэтому мне приятно увидеться, спросить, как у кого дела, и найти новых знакомых, с которыми, возможно, будем реализовывать какие-то проекты в будущем. Это всегда мотивирует. И: Ты в "Иннополисе" не первый раз? Никита Ильтяков: Нет, в "Иннополисе" впервые, но со многими ребятами мы пересекались в "Сириусе" и неоднократно на других олимпиадах. И: И что бы ты пожелал участникам следующей олимпиады? Никита Ильтяков: Я бы пожелал решать задачи по-своему, оригинально, не боясь попробовать что-то новое, — то, что никогда не пробовали до тебя.
10 класс, ГАОУ Школа №548, г.Москва Победитель Всероссийской олимпиады по ИИ-2023
Грязнев Захар
И: Представься, пожалуйста. Захар Грязнев: Я Грязнев Захар, ученик 10 IT-класса московской школы № 548. И: Ты — финалист Олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как подходила твоя подготовка и как ты получил знания, которые помогли тебе в Олимпиаде? Захар Грязнев: Из-за того, что в последние два года в Олимпиаду добавили такое направление, как спортивное программирование, подготовка к региональному этапу всероссийской олимпиады по информатике очень помогла решить эти задания. По искусственному интеллекту я начал готовиться ещё с 7 класса до участия в World Skills. У меня был наставник, который помогал мне. И: Есть ли у тебя наставник на данный момент? Захар Грязнев: Да, два наставника. Один – это наш преподаватель информатики, второй – это преподаватель в колледже. И: Чем они тебе помогают? Захар Грязнев: Они вместе со мной ищут информацию, то есть постоянно мониторят интернет, потому что выходят новые библиотеки, новые статьи, новые методы обработки данных. Если что-то нахожу интересное, то мы это разбираем. И: Может, ты ещё занимался на каких-то курсах? Захар Грязнев: На курсах я не занимался — у нас в школе очень объёмный материал, его очень много, поэтому хватает. Ещё в школе есть у нас направление Data Science. И: Почему именно машинное обучение? Захар Грязнев: Оно заинтересовало меня, на самом деле, давно, класса с седьмого. Очень интересно было, в принципе, как обрабатываются данные, как это работает. Потом это начало настолько быстро развиваться, что стало ещё интереснее, сложнее, но когда ты в этом разбираешься, то проще потом идти дальше. И: Есть у тебя какой-то свой проект? Захар Грязнев: Да, есть. Это автоматизированные ячейки хранения, с помощью которых происходит хранение вещей. Чаще всего они будут использоваться в школах, потому что там проводятся массовые мероприятия, и ученикам, которые приходят извне, обычно некуда деть вещи. Поэтому в таких ячейках есть возможность открытия по карте. Это карта “Москвёнок”. Если это ученики той же школы, то применяется технология искусственного интеллекта для FaceID. И: Расскажи, пожалуйста, какие задания Олимпиады вызвали у тебя наибольший интерес? Захар Грязнев: Задания по спортивному программированию. В том году эти задания были сами в себе, то есть, напишите алгоритм, что-то подобное. В этом году такие задания были простые в реализации, но более идейные. Например, задание больших этапов: вот вам формула, составьте её. И нужно было раскрыть эту формулу, раскрыть множители и посмотреть, что мы знаем, а что нам нужно постоянно пересчитывать. И: Важным этапом любой задачи является EDA (EDA - exploratory data analysis). Что в рамках решения обеих задач полезного получилось узнать при анализе, что поспособствовало улучшению качества решения? Захар Грязнев: В рамках решения первой задачи была найдена такая вещь, как лиг, не то, чтобы уязвимость, но идея, которая может помочь решить задачи. Например, в этот раз часть данных, и модели, на основе которых составляется прогноз, уже были в составе обучающей выборки, и мы взяли их оттуда. Также можно было заметить, что данные были сбалансированы, и от этого уже отталкиваться. Можно было не применять алгоритмы искусственного интеллекта и применить математику. В другой день анализ данных помог выявить столбцы, которые бесполезны и только мешали модели обучаться. Например, у нас был столбец, заполненный нулями. Когда я его убрал, то модель выдала гораздо лучшее качество. Также, в принципе, довольно сложно было как-то провести EDA, потому что данные были представлены таблицей цифр, а столбцы её — названиями латинских букв. И: Задача на предсказание клика включала в себя анонимизированные данные без описания. Как в таком случае ты подходил к анализу признаков? Как и какие зависимости изучал? Захар Грязнев: В начале был просто визуальный осмотр, благодаря чему вывелся столбец. Там стало заметно, что есть много нулей в начале и много нулей в конце. Я убедился, посмотрев уникальные значения, что он состоит только из нулей. Остальные столбцы было сложно изучать. Как-то я их разбил с помощью медианы минимально-максимального значения просто на три категории: маленькое, среднее и высокое значения, и обучал модель на этом. Также тестировал, найдёт ли модель зависимости. Она нашла даже лучше, чем без разбиения. И: Оценивали важность признаков или использовали сразу все как есть? Делали дополнительные признаки? Захар Грязнев: Дополнительных признаков не делал, потому что это было довольно проблематично и почти невозможно. Максимум, что можно было сделать, это просуммировать столбцы и произведения, но в этом не было смысла. Сначала я построил базовое дерево решений. Оно показывает, какие признаки использованы чаще всего и какие признаки важные. Благодаря этому я отсеял ещё пару столбцов. Моделька осталась такой же в плане точности, но обучалась намного быстрее. Её было проще использовать для следующего этапа. И: Помимо решения задачи как таковой ты участвовал в соревновании. Применял какие-либо действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Захар Грязнев: Да, такое было. Мы проводили взлом благодаря метрике. Единственное, я не смог заметить всё настолько хорошо, как заметили люди из тогдашнего топа. Я нашёл какую-то базовую зависимость и потом отталкивался от неё. То есть я посмотрел, что она хорошо даёт, эти данные сохранил и потом с помощью модели достроил другие. И: Расскажи, пожалуйста, какие эмоции ты испытываешь от участия в Олимпиаде? Захар Грязнев: Я этой Олимпиадой очень доволен, потому что организация на высшем уровне. Нет проблем ни с логистикой, ни с заданиями. Если есть какие-то вопросы по заданиям или корректировки, то организаторы отвечают и оперативно меняют. И: Что бы ты пожелал будущим участникам Олимпиады? Захар Грязнев: Самое основное, что я бы пожелал им — брать с собой дополнительно рюкзак или чемодан для мерча, потому что его всегда много и от партнеров, и от самих организаторов. Также не расстраиваться, потому что эта Олимпиада на самом деле на финале сложная, но она даёт очень хороший опыт.
И: Представься, пожалуйста, из какой ты школы и в каком классе учишься? Андрей Хлопотных: Меня зовут Хлопотных Андрей Сергеевич, я учусь в 10 классе, в Санкт-Петербургском губернаторском 30-м физико-математическом лицее. И: Ты — финалист олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как проходила твоя подготовка и как ты получил знания, которые тебе помогли? Андрей Хлопотных: Моя подготовка проходила так: я взял все свои проекты за долгое время, взял все свои коды с разных соревнований и залил на GitHub, чтобы в будущем это могло мне помочь. Как я учился? Я пару лет назад проходил Deep Learning School и много курсов на платформе ODS. И: Может, есть какие-то курсы, на которых ты занимался? Андрей Хлопотных: Как я уже говорил, я занимался на курсах Deep Learning School и ODS. И: Расскажи, почему именно машинное обучение? Андрей Хлопотных: Это интересно, можно делать какие-то эксперименты. И: Какие задания олимпиады вызвали у тебя наибольший интерес? Андрей Хлопотных: Наверное, мультимодальное обучение. И: Важным этапом любой задачи являлось предварительное исследование датасета. Что в рамках решения обеих задач полезного получилось узнать при анализе? Андрей Хлопотных: Баланс классов было полезно узнать, то есть какие классы встречаются чаще всего. Также качество данных тоже было очень полезно узнать. И: Что поспособствовало улучшению качества? Андрей Хлопотных: Повысить качество работы получилось за счёт улучшения архитектуры и использования ансамблей. И: Задача на предсказание кликов включалась в себя анонимные данные без описания. Как в таком случае ты подходил к анализу признаков? Андрей Хлопотных: Я использовал такую штуку, как CatBoost. Я выкинул самые большие и сложные кат-фичи, оставил самые лёгкие и использовал все нумерические фичи. К тому же учёл 10 фолдов. И: Как и какие зависимости ты изучал? Андрей Хлопотных: Основная зависимость, которую я изучал, это зависимость между нумерическими фичами и лейблом, так как категориальные фичи работали так себе, даже самые простенькие. И: Ты оценивал важность признаков или использовал сразу всё, как есть? Андрей Хлопотных: Да, оценивал. Как я уже упоминал, категориальные признаки в большинстве своём были мусором. И: Расскажи, пожалуйста, какие эмоции ты испытываешь от участия в олимпиаде? Андрей Хлопотных: Положительные. Прикольно, что прошёл. И: Что бы ты мог пожелать будущим участникам олимпиады? Андрей Хлопотных: Участвовать во всех соревнованиях, в которых они могут участвовать, ведь опыт – это самое ценное.
11 класс, МКОУ «Товарковская СОШ 1», Калужская область Призёр Всероссийской олимпиады по ИИ-2023
Жучков Павел
И: Представься, пожалуйста, из какой ты школы, в каком классе учишься? Павел Жучков: Я — Павел Жучков. Учусь я в 11 классе Товарковской СОШ №1. Она в посёлке Товарково в Калужской области, достаточно сельская местность. И: Ты — финалист Олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как ты обучался и как ты получил знания, которые тебе помогли в Олимпиаде? Павел Жучков: Обучался я самостоятельно, читал какие-то статьи, что-то пытался найти. Организованности в этом обучении не было. И: У тебя есть наставник? Павел Жучков: Я благодарю свою учительницу по информатике Галину Евгеньевну Коряеву за то, что она пробудила во мне интерес к ИИ. И: Расскажи, почему именно ML? Павел Жучков: Потому что мне как-то раз предложили в прошлом году поучаствовать во Всероссийской Олимпиаде по искусственному интеллекту, и я решил попробовать. И: Есть у тебя какие-то собственные проекты? Павел Жучков: По искусственному интеллекту нет. По программированию пытаюсь делать хоть что-то на досуге, пока тоже ничего особенного нет. И: Какие задания Олимпиады у тебя вызвали наибольший интерес? Павел Жучков: Мне понравилось задание с факторизацией. Это очень прикольный трюк. И: Какие эмоции ты испытываешь от участия в Олимпиаде? Павел Жучков: Есть в этом какой-то такой кайф, если решение на каких-то уже последних минутах зашло. Правда, если не зашло, то там уже всё печально, но ладно. И: Важным этапом любой задачи является EDA. Что получилось узнать полезного в рамках решения обеих задач при анализе? Что помогло улучшить качество решения? Павел Жучков: Я в первой задаче данные особо не анализировал. Поэтому про то, что там повторяются данные в тесте и трейне, не узнал. Во второй задаче я понял, что T — это время. По-моему, об этом сказали позже. Хотя, может, сразу не увидел. Потом я выкидывал несколько раз N, потому что, по-моему, оно было одинаковое. И: Задача на предсказание клипа включала в себя анонимизированные данные без описания. Как в таком случае вы подходили к анализу признаков? Как и какие зависимости изучали? Может, как-то оценивали важность признаков или использовали сразу всё, как есть? Павел Жучков: В основном использовал всё, как есть: посмотрел на среднее, минимум, максимум. Собственно, из времени вычитал минимальное время, потому что оно там, видимо, юниксовское, так как начинается с 13 миллиардов. Несколько раз выкидывал N, потому что оно было одинаковое. Также думал выкидывать групповые категориальные признаки, потому что с ними очень трудно работать. Но в итоге не выкинул. И: Делали ли какие-то дополнительные признаки? Павел Жучков: GC-шки, я их хэшировал, потому что иначе они просто не помещаются в память. И: Что бы ты пожелал будущим участникам Олимпиады? Павел Жучков: Я бы пожелал им упорства, удачи и стараний.
11 класс, МБНОУ «ГКЛ», Кемеровская область Призёр Всероссийской олимпиады по ИИ-2023
Чертан Вячеслав
И: Представься, пожалуйста, из какой ты школы и в каком классе учишься? Вячеслав Чертан: Меня зовут Чертан Вячеслав, я из города Кемерово, учусь в 11 классе городского классического лицея. И: Ты — финалист Олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как ты проходил обучение и каким образом получил те знания, которые тебе помогли в Олимпиаде? Вячеслав Чертан: Искусственным интеллектом я занимаюсь как сам, так и в центре дополнительного образования в нашем городе. Олимпиадным программированием и математикой занимаюсь, можно сказать, полностью самостоятельно, ездил на смены в "Сириус". Олимпиада на отборочном этапе делилась на несколько частей. Это были задачи на олимпиадное программирование, на математику и на сам искусственный интеллект. И: Есть ли у тебя какие-то собственные проекты? Вячеслав Чертан: Есть у меня проект — телемедицинский сервис для помощи в реабилитации после поражения лицевого нерва. Есть такие заболевания, которые приводят к тому, что часть лицевых мышц отказывается работать. Это может произойти от обморожения и несколько других болезней. Чтобы восстановить мышцы, нужно периодически выполнять мимические упражнения, делать это правильно. Как происходит контроль сейчас? Пациент приходит к врачу, врач у него лично принимает то, как пациент делает упражнения. В дополнение ещё может быть система, в которой человек выполняет перед зеркалом сам или записывает на камеру телефона и отправляет врачу. Это не сильно удобно, потому что врач должен отсматривать упражнения пациента либо вживую, либо на записи, тратя своё время. Я разработал систему, которая на основе искусственного интеллекта определяет правильность выполнения мимических упражнений. Благодаря нескольким мифотекам, которые переводят изображение, определяют точки лица, по точкам лица строят отрезки и определяется правильность выполнения упражнения. И: Скажи, пожалуйста, какие задания Олимпиады у тебя вызвали наибольший интерес? Вячеслав Чертан: С заданиями по математике и программированию я справился, в принципе, легко. Самыми интересными как раз были задачи на машинное обучение — особенно всё, что связано с текстом. Я узнал, что в CatBoost можно использовать один дополнительный параметр, чтобы всё это работало легко и просто. И: Важным этапом любой задачи является предварительное исследование датасета. Что в рамках решения обеих задач полезного получилось узнать при анализе? Вячеслав Чертан: Во второй задаче занимательным было то, что можно было обучить обычный классификатор через CatBoost, и он будет достаточно хорошо работать, а также то, что данные были немного повреждены и это нужно было заметить и устранить, чтобы балл стал выше. И: Что поспособствовало улучшению качества решения? Вячеслав Чертан: Как уже говорил, убрав последний элемент и приплюсовав к индексам всех остальных по единичке, я получил качество модели лучше на 3 сотых. Без этого я был бы наверно на середине трейнинга, а здесь я оказался на одной четверти. И: Задача на предсказание клика включала в себя анонимные данные без описания. Как в таком случае ты подходил к анализу признаков? Вячеслав Чертан: Вообще — не знаю, сразу или нет, вроде бы через какое-то время — в задаче появилось описание того, что означает каждая колонка хотя бы примерно. Например, было написано, что буква алфавита обозначает какие-то категориальные признаки один и два, счетчики С1, С2, С3 — набор категориальных признаков. Я просто в катбусте прописал, что есть что, и это начало хорошо работать. По крайней мере лучше, чем было до. В целом не составляет труда понять, какие признаки являются чем, проведя небольшой анализ в своём ноутбуке. И: Как и какие зависимости изучал? Вячеслав Чертан: Вообще на изучение зависимостей не так много времени ушло. Я почти сразу начал писать модельки. Во второй задаче что-то пошло не так сначала. Моделька выдавала на трейне и на валидации хороший результат, а на тесте приписывала всем класс того, что человек кликнет. Это было, естественно, как-то очень странно. И: Оценивал важность признаков или использовал всё как есть? Вячеслав Чертан: Не было на это времени. Когда я написал хорошее решение, у меня оставалось минут 30, чтобы дошлифовать. Это очень мало с учётом того, что датасет весит очень много и одна его выгрузка и загрузка на систему занимает минут пять. И: Применял ли какие-то действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Вячеслав Чертан: Как я уже говорил — уберём последнюю запись, добавим ко всем остальным ID-шникам по единичке, и решение начинает работать лучше. В первой задаче, возможно, получилось случайно, возможно, нет, но я вовремя остановил выполнение своего решения, оно было медленным, отправил, и поэтому балл выровнялся на своей максимальной позиции. Если бы я не дорешал, балл был бы меньше, потому что одно решение. У меня два решения совмещались, показатели меняли друг друга. Если бы я это сделал чуть раньше или чуть позже, у меня был бы более низкий балл. И: Как тебе в принципе задание? Вячеслав Чертан: Это было очень интересно, особенно то, что мне пригодилось не только знание по ML, но и знание об алгоритмах, умение оптимизировать тут тоже полезно. И: Расскажи, пожалуйста, какие эмоции ты испытываешь от того, что участвуешь в Олимпиаде? Вячеслав Чертан: Это просто круто, что находишься в таком месте. И: Что бы ты пожевал у участников следующей Олимпиады? Вячеслав Чертан: Не паникуйте и грамотно распределяйте своё время.
10 класс, МАОУ «Лицей № 58», Республика Башкортостан Призёр Всероссийской олимпиады по ИИ-2023
Гарифуллин Тимур
И: Представься, пожалуйста. Тимур Гарифуллин: Здравствуйте, меня зовут Тимур Гарифуллин. Я из Уфы. Учусь в 10-м классе 58-го лицея. И: Расскажи о своей подготовке к олимпиаде. Тимур Гарифуллин: Я изучал разные материалы. В интернете рассматривал также библиотеки, связанные с этим направлением. В основном самостоятельно. Я вообще самоучка. И: Нравится заниматься машинным обучением? Тимур Гарифуллин: Да, это очень интересно. И: Какие перспективы видишь в этом направлении? Тимур Гарифуллин: Мне очень интересна эта область. Хотел бы побольше узнать об этом. Хочу развиваться в разных направлениях (NLP, CV и всякое такое.) И: Какие у тебя планы? Тимур Гарифуллин: Хотел бы устроиться в Яндекс или СБЕР. И: Может, уже сейчас есть проекты, в которых ты участвуешь? Тимур Гарифуллин: Я два года участвовал в “Больших вызовах” по направлению больших данных, искусственный интеллект, финансовые технологии и машинное обучение. А сейчас подал заявку в Сириус. И: Есть ли у тебя какие-то идеи будущих проектов? Тимур Гарифуллин: Я хочу попробовать векторную базу данных, но пока что не могу придумать какой-то проект, чтобы её опробовать. И: Какие олимпиадные задания вызвали наибольший интерес? Тимур Гарифуллин: Наибольшие трудности вызвала рекомендательная система, так как я с этим никогда не сталкивался. И: А какое-нибудь простое задание выделить можешь? Тимур Гарифуллин: Простыми показались задачи по оценке зарплат профессии, хотя некоторые люди в последний день решили её лучше, чем я. И: Расскажи про свои ощущения от олимпиады. Тимур Гарифуллин: Олимпиада интересная, узнаю много нового для себя. Например, никогда не интересовался рекомендательными системами, не пробовал математальные модели, а сейчас с удовольствием изучаю эти области. И: Не тяжело, что олимпиада проходит в несколько этапов и в разных городах? Тимур Гарифуллин: Нет, это прикольно. Потому что есть возможность посмотреть Иннополис, Москву, где множество офисов компаний, таких как СБЕР, ВК. И: Было что-нибудь весёлое? Подружился с кем-нибудь? Тимур Гарифуллин: Встретил много знакомых с направления «Большие вызовы». Например, Гринюк Илья. Знаю ещё, что тут будут Чертан Вячеслав, Ильтяков Никита, Соколов Юрий, Цимбалюк Кирилл и Дышлевский Игорь. И: Что в рамках решения обеих задач полезного получилось узнать при анализе? Тимур Гарифуллин: Во второй задаче при анализе я отсеял несколько признаков, и, скорее всего, из-за них у меня как раз и получился очень хороший результат. На первой задаче я нашёл несколько битых картинок, которые бы поломали решение где-то посередине обучения. Сэкономил время. И: Что поспособствовало улучшению качества решения? Тимур Гарифуллин: Предобработка данных. Ещё я анализировал фичи, брал самые полезные из них с помощью нескольких алгоритмов из библиотеки CircuitLearn.
И: Задача на предсказание клика включала в себя анонимизированные данные без описания. Как в этом случае ты подходил к анализу признаков? Тимур Гарифуллин: Там очень много было численных данных. Я решил сделать так же, как и в первый раз. Потом в условие загрузили, что они категориальные. Я их переделал на категориальные, но в итоге по времени обучение стало дольше, а по качеству даже хуже. Численные данные оказались лучше. И: Какие зависимости изучал при решении? Тимур Гарифуллин: Для первой задачи я извлекал эмбеддинги из картинок. Там извлекаются некоторые характеристики, и в зависимости от этих характеристик я предсказывал схожесть текста картинки. И: Ты оценивал важность признаков или использовал сразу всё, как есть? Тимур Гарифуллин: В первой задаче использовал SelectKBest из CircuitLearn. Выбрал 200 лучших. И: Дополнительные признаки делал? Тимур Гарифуллин: Дополнительные признаки, как раз эмбеддинги в первой задачи. Во второй задаче нет, не делал. И: Применял ли ты какие-то действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома"? Тимур Гарифуллин: Нет. На второй задаче я пытался так сделать, но в итоге качество оказалось хуже, чем именно обученная модель по-настоящему. И: Как тебе в принципе задания? Тимур Гарифуллин: Задания интересные. Второе мне понравилось больше. Я не так часто занимался мультимодальными моделями. И: Что ты можешь пожелать будущим участникам? Какой дать совет? Г: Интересоваться всем в направлении искусственного интеллекта. Гуглить, если чего-то не знаешь, найти ответ, какие-то наиболее частые решения таких задач.
11 класс, ГАОУ ТО «ФМШ», Тюменская область Призёр Всероссийской олимпиады по ИИ-2023
Дышлевский Игорь
И: Представься, пожалуйста. Игорь Дышлевский: Меня зовут Дышлевский Игорь, я учусь в 11 классе физико-математической школы в Тюмени, мне 17 лет. И: Расскажи, пожалуйста, о своей подготовке к олимпиаде. Игорь Дышлевский: Началась она с подготовки к основному этапу, некоторым задачам, заключительному этапу. К нему в основном готовился по вебинарам. Я понял темы задач, методы, которые нам предлагают организаторы, поэтому я сам смог посмотреть другие способы решения подобных задач. И: Ты готовился в школе? Может еще какие-то курсы были или в школе дополнительные занятия? Игорь Дышлевский: У меня в школе дополнительных занятий не было, курсов тоже, то есть самостоятельный поиск. И: Ты сейчас уже участвуешь в каких-нибудь проектах? Игорь Дышлевский: "Большой вызов" от Сириуса, Сочи. И: И есть ли у тебя какие-то идеи на будущие проекты? Игорь Дышлевский: Есть идеи улучшения тех проектов, которые уже есть. Идей будущих проектов тоже много. Одна из них – это совмещение некоторого количества моделей, больших моделей для создания ансамблей с моделями машинного обучения для решения более сложных задач. Добавление жёсткого интерфейса. И: Какие олимпиадные задания вызвали наибольший интерес? Игорь Дышлевский: Наибольший интерес вызвали задачи по машинному обучению, которые были на основном этапе. Но больше машинного обучения душу греет из всех этих задач. И: Можешь ли выделить очень сложное или, наоборот, лёгкое задание? Игорь Дышлевский: Самое сложное – это задачи не по машинному обучению. Самые лёгкие задачи — по машинному обучению. И: Расскажи про свои ощущения от олимпиады. Игорь Дышлевский: Задачи по машинному обучению были достаточно интересные. Задача на рекомендательную систему в основном этапе заставила сесть и всё-таки написать эту систему, что получилось не так быстро. Но всё же задача из финального этапа — самая интересная. И: Важным этапом любой задачи является EDA (EDA - exploratory data analysis). Что в рамках решения обеих задач полезного получилось узнать при анализе, что поспособствовало улучшению качества решения? Игорь Дышлевский: Допустим, для задач в первый день у нас было распределение по классам в системе, куда мы заливали решения. Оно было одно, они были равномерные. Распределение в тренировочных данных было с ужасным перекосом от одного класса. Из-за этого при обучении я добавлял коэффициент, обратный проценту. Те классы, которых было меньше, имели большее значение, потому что на тестировочных данных их будет ровно столько же, как остальных. Из-за этого их надо учитывать сильнее, чем остальные, за один элемент. И: Задача на предсказание клика включала в себя анонимизированные данные без описания. Как в таком случае ты подходил к анализу признаков? Как и какие зависимости изучал? Может, как-то оценивал важность признаков или использовал сразу всё, как есть? Игорь Дышлевский: Вначале смотрел, какие признаки можно удалить, какие признаки я точно не буду обрабатывать из-за того, что это может занять все 6 часов, которые у нас были. Соответственно, убрал 4 признака такими способом. Дальше смотрел на то, какие признаки к какому типу относятся. То есть, категориальные и некатегориальные. По этому поводу уже обрабатывались данные и подавались в разные модели. И: Помимо решения задачи как таковой ты всё же участвовал в соревновании. Применял какие-либо действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Игорь Дышлевский: С позиции взлома — нет. Но это как посмотреть. Я загружал таблицы с одинаковыми классами, чтобы понять, какое там распределение. Получилось узнать, что оно абсолютно равномерно. Как раз из-за этого был добавлен коэффициент. Затем распределение помогло понять, в окрестностях каких значений модель должна выдавать результаты, и так уже помогать отбирать модели. Попытки атаковать умышленно не было, но эти данные использовались для будущих моделей. И: Что ты можешь пожелать будущим участникам? Игорь Дышлевский: Успехов и удачи на олимпиаде. Также очень полезны для олимпиады вебинары. Чтобы решать задачи следующего этапа, очень полезно посмотреть предыдущий вебинар, который записывался для участия в этапе.
11 класс, СУНЦ НГУ, Новосибирская область Призёр Всероссийской олимпиады по ИИ-2023
Таушканов Никита
И: Представься, пожалуйста, из какой ты школы и в каком классе учишься? Никита Таушканов: Я Таушканов Никита Александрович, учусь в 11 классе школы СУНЦ НГУ города Новосибирск. И: Ты — финалист олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как проходила твоя подготовка и как ты получил те знания, которые тебе помогли на Олимпиаде? Никита Таушканов: Машинным обучением я начал заниматься не так давно, где-то полгода назад. Занимался самостоятельно по свободным источникам в интернете. Это курсы, книги и прочее. В общем, вот и вся подготовка. И: Ты занимался на каких-то курсах? Никита Таушканов: По большей части это курсы на Stepik — такая образовательная платформа. Книги тоже очень много мне дали в плане знаний. И: Расскажи, почему именно машинное обучение? Никита Таушканов: Во-первых, мне кажется, за этим будущее. Во-вторых, мне просто понравилось, я попробовал — интересно, почему нет. Эта область совмещает в себе математику и программирование. И то и то мне нравится. И: Какие задания Олимпиады вызвали у тебя наибольший интерес? Никита Таушканов: По машинному обучению. Особенно понравилась задача про рекомендательную систему. И: Важным этапом любой задачи являлось предварительное исследование датасета. Что в рамках решения обеих задач полезного получилось узнать при анализе? Никита Таушканов: На самом деле только за счёт этого я, наверное, и попал на 9-е место. То есть в первой задаче я просто нашёл удачные закономерности и набрал много баллов. А во второй провёл исследование, и в результате получилось много чего полезного оттуда достать. И: Было что-то, что поспособствовало улучшению качества решения? Никита Таушканов: Не знаю, не могу ответить. И: Задача на предсказание клика включала в себя анонимные данные без описания. Как в таком случае ты подходил к анализу признаков? Никита Таушканов: Было очень сложно. Я первый час вообще не понимал, что где находится. Конечно, хотелось бы, чтобы сообщали хотя бы, что данные анонимные. И какие именно данные в какой колонке хранятся именно по типам? То есть тип — время, категории или числовые значения. И: Может, как-то оценивал важность признаков или использовал всё сразу, как есть? Никита Таушканов: Я не разобрался с категориальными данными. Там получились три колонки со списками значений. Что они означали, я не знал, и как их обработать, чтобы достать оттуда что-то полезное, тоже. Остальные все использовал по полной. И: Применял какие-либо действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Никита Таушканов: В целом я этим и занимался. И: Как тебе задания? Никита Таушканов: Задания интересные очень. Я не так давно занимаюсь машинным обучением. Первая задача была немного сложная, но за 6 часов можно решить. Вторая тоже интересная. Единственный минус, как я говорил, это непонятно вообще, что с данными делать и что где находится. А так хорошая задача. И: Расскажи, пожалуйста, какие эмоции ты испытываешь от того, что ты участвуешь в Олимпиаде? Никита Таушканов: Когда я приехал, мне всё очень понравилось. Очень щедрые организаторы. Всё красиво, современно. И: Что бы ты пожелал участникам следующей Олимпиады? Никита Таушканов: Чтобы всё получилось.
10 класс, ГАОУ Школа №548, г.Москва Призёр Всероссийской олимпиады по ИИ-2023
Куковякин Артём
И: Представься, пожалуйста, из какой ты школы и в каком классе учишься? Артём Куковякин: Я, Куковякин Артём, учусь в 10 "Р" классе московской школы №548. И: Ты — финалист олимпиады по искусственному интеллекту. Скажи, пожалуйста, как ты готовился и как ты получил те знания, которые тебе помогли в олимпиаде? Артём Куковякин: У нас в школе как дополнительное образование уже второй или третий год идёт предмет ”Большие данные”, где есть введение в анализ данных, и там же мы проходили нейронные сети и алгоритмы ML, что помогло в решении задач. Также нам помог преподаватель, когда он давал нам курсы от университета искусственного интеллекта, вроде Яндекса, и мы готовились по ним. И: Подскажи, пожалуйста, у тебя есть наставник? Артём Куковякин: Да. Именно по искусственному интеллекту — это наш преподаватель по информатике, анализу данных. Это Максим Олегович Мазуров. И: А чем и как он помогает? Артём Куковякин: Он объясняет нам, как решать задачи. Он объясняет нам разные способы и методы решения задач на анализ данных, теорию и также даёт нам практические задания. И: Расскажи, почему именно ML? Артём Куковякин: Потому что ты можешь взять, запустить свой код где-то на 5 часов и уйти куда угодно, а он 5 часов будет что-то делать. Сам можешь кофе попить, фильм посмотреть, жизнь прожить, а он до сих пор делает работу. И: Какие задания Олимпиады тебе больше всего запомнились с прошлого этапа? Артём Куковякин: Я очень люблю олимпиадное программирование, поэтому мне запомнились задачи именно по нему. И: А были ли какие-то, которые слишком сложные, слишком лёгкие? Артём Куковякин: Слишком сложные – да. Это, допустим, была рекомендательная система — четвёртая или пятая задача. Это была первая задача МЛ, и она была довольно сложной. Совсем лёгких не было. Возможно, математика была такой. Задача эта — огонь, на довольно высоком уровне, я бы сказал. И: Важным этапом любой задачи являлось предварительное исследование датасета. Что в рамках решения обеих задач полезного получилось узнать при анализе? Артём Куковякин: В первой задаче при анализе получилось очень легко узнать, что там трейновый тест, просто практически совпало. Во второй задаче в рамках исследования получилось узнать, что многие столбцы в датасете совершенно бесполезны. Их можно просто вырезать, что облегчило и память, и решение. Поэтому очень полезно смотреть на данные. И: Что поспособствовало улучшению качества решения? Артём Куковякин: Немного побить лидерборд с помощью анализа данных. Ещё поспособствовал подбор гиперпараметров на нейронку. И: Задача на предсказание клика включала в себя анонимные данные без описания. Как в таком случае ты подходил к анализу признаков? Артём Куковякин: Задание лика – это вторая задача. Я смотрел без описания, что там такого. И: Какие зависимости изучал при прохождении задания? Артём Куковякин: Как я говорил, в первой задаче тест совпадал с трейном. Во второй – большинства нет, я её запихнул в рандом С. И: Может, как-то оценивал важность признаков или использовал сразу всё, как есть? Артём Куковякин: Важность я оценивал. Там был столбец полностью в нанах, я его удалил, он был бесполезен. А некоторые столбцы не меняли свои значения. Они были всегда одинаковые, и тоже бесполезны. И: Применял ли какие-то действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома"? Артём Куковякин: Нет, не применял, только по задаче, по метрикам. И: Как тебе в принципе задания? Артём Куковякин: Были интересные. Немного поломать мозг было прикольно. Особенно, когда оказывается, что ты сдаёшь решение на переборы, и это заходит лучше, чем некоторые нейронки, но ладно. И: Спасибо, что поделился. Скажи, пожалуйста, какие эмоции ты испытываешь от того, что ты участвуешь в Олимпиаде? Артём Куковякин: Это прекрасная Олимпиада. Это всегда прекрасный состав, прекрасно. Особенно выходить в финал – это просто шедеврально. И: Что бы ты пожелал участникам следующей Олимпиады? Артём Куковякин: Я пожелал бы терпения, терпения, ещё больше терпения, труда. Гореть этим, поскольку без горения ничего не добьёшься.
10 класс, МБОУ СОШ № 13 г. Орла, Орловская область Призёр Всероссийской олимпиады по ИИ-2023
Ветров Вадим
И: Представься, пожалуйста. Вадим Ветров: Вадим Ветров, участник Олимпиады, учусь в школе в 10 классе МБОУ СОШ №13 города Орёл. И: Ты — финалист олимпиады по искусственному интеллекту. Расскажи, пожалуйста, как проходила твоя подготовка и как ты получал знания, которые помогли тебе в олимпиаде? Вадим Ветров: Расскажу, как я вообще начинал заниматься искусственным интеллектом. В прошлогодней олимпиаде я так же, как и в этот раз, вышел в финал и даже стал призёром. Собственно, с той олимпиады я и начал заниматься машинным обучением, а в этом году продолжил. И: Расскажи, почему именно машинное обучение? Вадим Ветров: Не только машинное обучение. Я занимаюсь многими направлениями в программировании. Это олимпиада по машинному обучению, поэтому тут в основном оно. И: Есть ли у тебя какие-то свои проекты? Вадим Ветров: Самим машинным обучением я занимаюсь не особо много, это не главное для меня сейчас. Законченных проектов у меня нет, но есть проект в разработке — мы его начали с участником этой олимпиады, с которым я знаком с того года. В этом году мы уже решили начать свой проект вместе. И: Как тебе задания? Вадим Ветров: Первое задание не особо понравилось. Там больше ребят решали алгоритмами, а я просто не дошёл до этого. Вот вторая задача сегодня мне очень понравилась. Биться уже за сотые баллы было увлекательно. И: Какие задания олимпиады у тебя вызвали наибольший интерес? Вадим Ветров: Конечно же, задания по искусственному интеллекту — последняя и предпоследняя задачи, направленные на машинное обучение и на рекомендательные системы. И: Что в рамках решения обеих задач полезного получилось узнать при анализе? Как ты решал? Вадим Ветров: В первой задаче я не делал анализа, а на второй именно анализ помог отобрать корреляции из DataSet. Благодаря этим корреляциям я отбрасывал некоторые значения, некоторые оставлял, перегруппировывал. Потом у меня очень хорошо пошла вторая задача. И: Что поспособствовало улучшению качества решения? Какие были шаги? Вадим Ветров: Уже самое первое решение дало очень хороший результат. Конечно, я пробовал закидывать другие решения, но самое первое, сделанное с моделью, дало тот результат, который я потом улучшал, настраивая CatBoost. И: Задача на предсказание кликов включала в себя анализированные данные без описания. Как в таком случае ты подходил к анализу признаков? Вадим Ветров: Никак, просто брал корреляции между признаками, закидывал их в CatBoost и всё. И: Как ты оценивал важность признаков? Использовал все сразу? Вадим Ветров: По важности признаков я, наверное, только исключил категориальные, которые были закодированы как тексты. У меня была идея их использовать, но вряд ли я бы нашёл время на эту реализацию. Я убрал один признак, в котором было стандартное отклонение 0. В принципе, наверное, он мог повлиять негативно. Всё остальное оставил. И: Применял какие-либо действия, чтобы оптимизировать метрику качества не с точки зрения хорошо решённой задачи, а с позиции "взлома" метрики качества? Вадим Ветров: Я знаю точно, что некоторые решения участников были такими. Они очень хорошо зашли на первой задаче. Сам я такого на первой задаче не делал, на второй проверил чуть-чуть. А так всё делал моделью. И: Расскажи, пожалуйста, какие эмоции ты испытываешь от участия в олимпиаде? Может, есть какие-то события, которые тебе очень запомнились? Вадим Ветров: Эмоции, конечно же, классные. Мне очень нравится участвовать. Ощущается дух соревнования. В основном этапе я занял первое место, и это очень круто. И: Спасибо, что поделился. Что бы ты пожелал будущим участникам олимпиады? Вадим Ветров: В следующем году я и сам собираюсь принимать участие, поэтому пожелаю удачи и им, и себе. Просто сидеть, решать. Всё обязательно получится, если приложить достаточно усилий.
11 класс, АНО ОШ ЦПМ, г.Москва Призёр Всероссийской олимпиады по ИИ-2023
Туревич Артём
И: Представься, пожалуйста, из какой ты школы и в каком классе учишься? Артём Туревич: Меня зовут Артём Туревич. Я учусь в 11 классе школы центра педагогического мастерства в Москве. И: Ты — финалист Олимпиады по искусственному интеллекту. Расскажи, как проходила твоя подготовка и как ты получил знания, которые помогли тебе в Олимпиаде? Артём Туревич: Искусственным интеллектом и машинным обучением я занимаюсь не так давно. По сути, я обучался по ходу участия в Олимпиаде, открывал для себя какие-то новые вещи. Ещё на курсах Яндекса. И вот сейчас там прохожу курсы по машинному обучению. А так, в целом, я обучался в основном сам. И: Расскажи, почему именно машинное обучение? Артём Туревич: Это направление мне было интересно достаточно давно. Я считаю, что оно достаточно перспективное, везде нужно. Оно интересно, потому что представляет собой решение творческих, не однотипных задач. И: Есть у тебя какие-то свои проекты? Артём Туревич: В привычном понимании проектов у меня нет, потому что я занимаюсь олимпиадным, а не промышленным программированием, математикой, ну и смешанными областями — всем понемногу. И: Какие задания олимпиады у тебя вызвали наибольший интерес на прошлом этапе? Артём Туревич: Я бы сказал, что задания, в которых надо писать какие-то модели, находить зависимости в данных, то есть последние две задачи. Потому что с остальными заданиями я уже был знаком. И: А показались какие-либо задания слишком сложными или слишком простыми? Артём Туревич: Вот, по-моему, задание, где нужно было построить рекомендательную систему, было достаточно сложным: там никто не смог набрать достаточно хороший результат, но достичь того, который в топе, можно было просто проанализировав данные самому, то есть найти какие-нибудь зависимости и пробовать их, а не строить модельку. И: Важным этапом любой задачи является EDA . Что получилось узнать полезным в рамках решения обеих задач при анализе, и что помогло улучшить качество решения? Артём Туревич: В первой задаче я при анализе данных увидел, что датасет получился немножко несбалансированным, потому что значение одного класса было гораздо меньше, чем значение двух остальных. Но, к сожалению, это никак не помогло мне в решении задачи, потому что оказалось, что в тестовом датасете классы примерно сбалансированы, и этот факт использовать не получилось. Скорее, он мешал. Во второй задаче, собственно, я изучил датасет и заметил, что там все значения вероятностей либо нулевые, либо единичные, то есть задача регрессии превращается в задачу классификации бинарной. И это действительно помогло. И: Задача на предсказание клика включала в себя анонимные данные без описания. Как в таком случае вы подходили к анализу признаков? Как и какие зависимости изучали? Может, как-то оценивали важность признаков или использовали сразу всё, как есть? Артём Туревич: Действительно, во второй задаче было достаточно сложно понять, какой признак что означает, поскольку признаки были названы просто буквами латинского алфавита. Но я предположил, что статистики количественные, и имеют больший вес, чем статистики качественные, их легче обрабатывать, и пытался использовать их в своем решении. И: Помимо решения задачи как таковой ты всё же участвовал в соревновании. Применял какие-либо действия, чтобы оптимизировать метрику не с точки зрения хорошо решённой задачи, а с позиции "взлома"? Артём Туревич: В первой задаче я этого не делал. Потом как раз после первого дня я узнал, что можно было бы набрать хороший балл с помощью взлома метрики. А во второй день, когда у меня не получилось обучить хорошую модель на датасете, я решил поизучать данные и обнаружил: из-за того, что у нас все вероятности представляют собой единицы, можно заполнить все предикты одним и тем же значением, так получив достаточно хорошую метрику. У меня вышло что-то вроде минус ноль точка ноль ноль один восемь (-0.0018). И: Расскажи, пожалуйста, какие эмоции ты испытываешь во время участия в олимпиаде? И есть ли какие-то события, которые, может, запомнились тебе больше всего? Артём Туревич: Во время участия в олимпиаде испытываю, в основном, интерес и задор. А из моментов мне запомнилось, как я в последний день основного этапа загонял последние задачи, все решения, чтобы получить баллы. Вот, такой самый яркий момент. И: Спасибо, что поделился. Что бы ты пожелал тем, кто будет участвовать в следующем году? Артём Туревич: Самое главное — чистого ума, чтобы ничто не затрудняло мысли. Кажется, это всё, что нужно для победы в олимпиаде.
Посмотри, как это было в 2023
Церемония открытия заключительного этапа Всероссийской олимпиады по ИИ 2023