This job might no longer be available.

Stagiaire Ingénieur de Recherche — Couplage de Deep RL online avec des données d’observation offline (F/H/NB)

2 years ago

Description du poste

Contexte

Les jeux vidéo multi-joueurs compétitifs ou coopératifs font émerger des questions scientifiques complexes, ouvertes, avec de forts enjeux applicatifs. Parmi ces sujets on trouve la question centrale des « bots », qui peuvent être des ennemis ou des équipiers. Leur design reste aujourd’hui principalement guidé par des arbres de décision scriptés, et ils sont parfois jugés sévèrement pour leur simplicité, leur manque de variété, leur difficile adaptation aux niveaux des joueurs, etc. Pour autant ils sont construits avec un réel savoir-faire de ceux dont c’est le métier, pour amener du « fun » aux joueurs : on ne cherche pas des bots intelligents, on cherche des bots qui paraissent intelligents.

Dans ce champ applicatif comme dans beaucoup d’autres la révolution « Machine Learning » a ouvert une nouvelle voie, avec l’espoir de corriger les défauts de ces bots scriptés. Le « Deep Reinforcement Learning » (Deep RL) en particulier laisse entrevoir la possibilité d’entraîner des bots en maximisant une fonction récompense intégrant la variété, le niveau, le fun !

Sujet

Lors d’un entraînement de Deep RL un agent apprend une « policy » au travers d’un modèle de réseau de neurone profond en interagissant avec le jeu. Pour des raisons pratiques dans le domaine du jeu vidéo le nombre d’interactions avec le système est limité à quelques centaines de milliers, ce qui oblige à rechercher une efficacité dans l’échantillonnage, et des solutions alternatives pour accélérer l’apprentissage. Une manière de faire est de coupler un apprentissage à partir de données d’observations, potentiellement nombreuses (typiquement des parties déjà jouées) ou labellisées pour leur intérêt, avec un nombre d’interactions limitées. Dans la littérature on peut parler de couplage entre l’imitation learning et le reinforcement learning, entre l’apprentissage offline et online, etc.

Ce que vous ferez

- Construire dans un premier temps une base de données d’observations en entraînant un agent dans cet environnement avec un objectif à définir mais différent de l’objectif recherché au final. Cette base de données pourra donc être vue comme l’observation d’un joueur soit non nécessairement expert, potentiellement avec des objectifs cachés inconnus.

- Dans un deuxième temps il entraînera un agent avec l’objectif recherché en essayant de tirer parti des données d’observation pour améliorer l’entraînement online. Le stagiaire mènera une étude bibliographique pour choisir les meilleures options, les implémenter, les améliorer le cas échéant.

Qualifications

Vous êtes en fin d’étude de niveau Bac+5, issu.e d’une école d’ingénieur ou d’un master recherche;
Vous avec des connaissances solides en mathématiques et informatique
Vous avez acquis des compétences en apprentissage machine, apprentissage profond, ou apprentissage par renforcement, et les avez mobilisées en utilisant des librairies Python adaptées
Votre niveau d’anglais vous permet de travailler dans une équipe internationale et de communiquer aisément avec des interlocuteurs non francophones.

Informations supplémentaires

Processus de recrutement

· Entrevue téléphonique

· Entretien avec nos équipes internes

· Entretien final avec le chef de projet

Si votre candidature n’est pas retenue, vous recevrez une réponse négative.

En application des mesures sanitaires liées au COVID-19, tous nos entretiens de recrutement sont conduits en visioconférence et nos postes sont éligibles au télétravail partiel.

En tant qu’employeur, Ubisoft offre à tous les mêmes opportunités d’accès à l’emploi sans distinction de genre, ethnicité, religion, orientation sexuelle, statut social, handicap et d’âge. Ubisoft veille à développer un environnement de travail inclusif qui reflète la diversité de sa communauté de joueurs dans ses équipes. Toute information sera traitée de manière confidentielle conformément à la Loi sur l'équité en matière d'emploi.

Description de l'entreprise

Les 20 000 collaborateur.trice.s d’Ubisoft, réparti.e.s sur plus de 40 sites à travers le monde, sont lié.e.s par une mission commune : enrichir la vie des joueur.euse.s par des expériences de jeu originales et mémorables. Leur énergie et leur talent ont permis de donner vie à de nombreuses franchises acclamées telles que Assassin's Creed, Far Cry, Watch Dogs, Just Dance, Rainbow Six, et bien d'autres à venir. Ubisoft est un employeur soucieux de l'égalité des chances et estime que la diversité des origines et des perspectives est essentielle pour créer des mondes où les joueur.euse.s et ses équipes puissent s'épanouir et s'exprimer. Si vous êtes enthousiaste à l'idée de relever des défis passionnants, exploiter des technologies de pointe, et prendre part au futur du divertissement, rejoignez-nous et créez l’inconnu.

Au sein d'Ubisoft, vous rejoindrez la partie française de notre centre de recherche “Ubisoft La Forge”. Cette entité a pour objectif de créer des ponts entre la recherche universitaire et l’industrie, entre la théorie et la pratique, d’accélérer la R&D par l’arrimage des milieux académiques et industriels autour de prototypes co-construits. Par cette approche, Ubisoft La Forge cherche à valider les connaissances tout en testant la valeur d’innovations technologiques.

Create Your Profile — Game companies can contact you with their relevant job openings.

Apply