Heeswijk Archives - Techno Blender

Deep Deterministic Policy Gradients Explained | by Wouter van Heeswijk, PhD | Apr, 2023

Solving The Taxi Environment With Q-Learning — A Tutorial | by Wouter van Heeswijk, PhD | Mar, 2023

When Stochastic Policies Are Better Than Deterministic Ones | by Wouter van Heeswijk, PhD | Feb, 2023

Three Fundamental Flaws In Common Reinforcement Learning Algorithms (And How To Fix Them) | by Wouter van Heeswijk, PhD | Jan, 2023

Rainbow DQN — The Best Reinforcement Learning Has to Offer? | by Wouter van Heeswijk, PhD | Dec, 2022

Proximal Policy Optimization (PPO) Explained | by Wouter van Heeswijk, PhD | Nov, 2022

Mass Layoffs in Tech — Is AI Winter Coming? | by Wouter van Heeswijk, PhD | Nov, 2022

Were Abstract Painters The First Encoders? | by Wouter van Heeswijk, PhD | Nov, 2022

Trust Region Policy Optimization (TRPO) Explained | by Wouter van Heeswijk, PhD | Oct, 2022

The Alberta Plan: Sutton’s Research Vision for Artificial Intelligence | by Wouter van Heeswijk, PhD | Sep, 2022