reinforcement learning
- Gegevens
- Gemaakt op dinsdag 21 mei 2024 14:56
- Laatst bijgewerkt op vrijdag 30 augustus 2024 14:22
- Gepubliceerd op dinsdag 21 mei 2024 15:00
- Hits: 271
Het algoritme leert van zijn acties via feedback van zijn omgeving. De feedback wordt verzorgt via (supervised reinforcement learning) en zonder menselijke trainers unsupervised reinforcement learning). Geschat wordt dat wereldwijd 60 miljoen menselijke trainers tegen een zeer laag loon dit werk doen.
Het algoritme dient een bepaald aantal acties correct te verrichten. Er wordt een beloning gegeven voor elke correcte actie en het maximum aantal gewenste correcte acties. Toepassingen reinforcement learning
Copilot, Robots in fabrieken, zelfrijdende auto's, ontwikkeling handelsstrategieën op e beurs, aanbevelingen voor gebruikers van het web, zoals films, muziek en producten, het optimaliseren van energieverbruik in gebouwen en datacenters en het personaliseren van behandelingen en het beheren van chronische ziekten.