Сортировать:
- по релевантности
- по дате
- по зарплате
... Мы - команда ML-инженеров GigaChat Data. Наша команда готовит данные для ... Finetuning (SFT), Reinforcement Learning (RL, DPO , PPO, GRPO) улучшение пайплайнов предобработки ...
12.01.2026
... фазы диффузионных моделей: RLHF (PPO, DPO и др.), RLAIF, SFT разработка ... карты взаимодействие с командами Pretraining, Data, Infrastructure, Production для масштаб пайплайнов ... применение RL и RLHF ( PPO/DPO и др.) умение проектировать архитектуры ...
13.01.2026