Les particules actives activées par la lumière sont fabriquées à partir de sphères de silice de 6,2 µm obtenues dans le commerce et recouvertes d’une couche de carbone de 80 nm sur un hémisphère. Ils sont ensuite mis en suspension dans une fine cellule d’échantillon dans un mélange binaire critique d’eau et de lutidine qui est maintenu proche de son point de démixtion inférieur à 34 °C. Lors de l’illumination des particules, l’hémisphère coiffé est chauffé au-dessus du point critique, conduisant à une démixtion locale du fluide et donc à l’autopropulsion de la particule24,29.

Pour permettre le pilotage individuel des particules, une boucle de rétroaction est utilisée : des images de l’échantillon sont prises à une fréquence de 5 Hz ; une analyse d’image en direct et un suivi de particules sont effectués pour fournir des trajectoires de particules à l’algorithme d’apprentissage par renforcement ; enfin, un déflecteur acousto-optique, balayant les particules à une fréquence de 10 MHz, est utilisé pour éclairer les particules individuelles avec un faisceau laser de 532 nm légèrement défocalisé. La taille du faisceau dans la plaine de particules est d’environ 4 μm. Afin d’appliquer un guidage actif aux particules, le spot laser est soit décalé vers le côté coiffé des particules pour un mouvement vers l’avant stabilisé, soit deux spots laser par particule avec des intensités différentes de chaque côté sont utilisés pour générer un gradient de chaleur dans le calotte carbone et donc démixtion anisotrope, se traduisant par un couple actif27,30.
Définition des récompenses et des observables
La source de nourriture virtuelle utilisée pour la définition de la récompense a un diamètre fixe de 80 μm.