Сортировать:
- по релевантности
- по дате
- по зарплате
... RL: MDP, POMDP, value-based и policy-based подходы, уравнения Беллмана, стратегии исследования. Опыт работы с Deep Reinforcement Learning: DQN, Policy Gradient, Actor-Critic, PPO и смежные алгоритмы. Опыт реализации RL-систем: построение агента, буфера ...
25.12.2025