Первое место — и два вторых, между которыми мы не смогли выбрать 🧡

Текст-победитель, от @czsadykov:

tl;dr: LLM Inference Frameworks and Optimization Engineer, $160k-230k/year + equity, San Francisco, Singapore, Amsterdam

CUDA? V Together AI, vot cuda!

Пост про эту вакансию мог бы написать ИИ. Но ещё нет инференса, который бы достаточно быстро породил необходимый объём ризонинга.

Поэтому вся мощь нашего человеческого (пока что?) ризонинга идёт на поиск человека, которому предстоит разрабатывать и оптимизировать LLM-инференс с амбициями на золотой стандарт индустрии. И который может делать это из US, Сингапура или Амстердама. Амбиции очень высокие для ремоута, да.

🦄 Together AI, к слову, – это облачный ИИ-провайдер, который недавно оценили в $3,3 млрд, и поэтому там сейчас активно пополняют команду из пары сотен сотрудников. Смело запрыгивайте к ним на ракету, если вы:

✔️ Хотя бы 3 года работаете с фреймворками для инференса нейросетей, распределёнными вычислениями и/или высоконагруженными сервисами;

✔️ Разбираетесь в чём-то из TRT-LLM, vLLM, SGlang и TGI. Но глубоко;

✔️ Умеете оптимизировать операции на GPU с помощью CUDA, Triton, TensorRT, умеете квантовать модели да и, в целом, в дебрях графов вычислений чувствуете себя как дома.

Attention! Если вы хорошо понимаете, как улучшить KV-cache, в вас могут влюбиться с первого интервью. Также желательно иметь опыт с k8s, HDFS, а участие в опен-сорсных проектах по DL-инференсу будет жирным плюсом.

Ещё, не поверите, нужно уметь программировать на Python и C++/CUDA.

Вилка: $160k-$230k + equity как база для US, итоговая компенсация будет зависеть от вашей локации, регалий, проектов и других звёздных характеристик 🌟

C резюме, вопросами и рекомендациями можно писать @ …

Второе место, от @valofey:

tl;dr: LLM inference optimization engineer, $160k-230k/year + equity, San Francisco/Singapore/Amsterdam

Больших окон боятся два типа людей — топ-менеджеры российских компаний и ML-ресерчеры. И если с первыми все понятно, вторых волнует квадратичная сложность механизма внимания. Чтобы каждый токен "посмотрел" на все остальные токены, нужно создать матрицу размером N×N. Хочешь обработать текст в два раза длиннее? Готовь в четыре раза больше памяти. Хочешь контекст в 100k токенов? Ну удачи 💸