Project R-13992

Titel

Deep learning algoritmes voor het automatisch grijpen van transparante objecten met robots. (Onderzoek)

Abstract

Vanwege de eigenschap van reflectiviteit en breking zijn transparante objecten moeilijk waar te nemen door RGB-D-camera's, zoals Intel RealSense, Microsoft Kinect, enz. Bestaande onderzoeken naar transparante objectdetectie kunnen in twee typen worden verdeeld: traditionele methoden en diep leren gebaseerde methodes. Traditionele methoden, bijv. IR-stereo, lichtveldfotografie, gestructureerde lichtdetectie en cross-modale stereo, deze methoden berusten voornamelijk op fysieke detectie, wat enorme kosten met zich meebrengt voor het ontwerp van een uitgebreide visuele module en moeilijk te promoten is in verschillende scènes . In tegenstelling tot de traditionele methoden, verminderen op diep leren gebaseerde methoden de afhankelijkheid van specifieke fysieke apparatuur en kunnen ze beter in verschillende scenario's worden toegepast. Hoewel er veel verschillende manieren zijn om transparante objecten op een deep learning-manier te detecteren, zijn de meeste beperkt door verschillende aspecten. Sajjan et al. schatte de 3D-geometrie van transparante objecten op basis van een enkele RGB-D-afbeelding volgens de voorspelde diepterepresentaties en Cholesky-optimalisatie, die lijdt aan enorme rekenkosten. Kalra et al. stelde een deep learning-raamwerk voor voor transparante objectsegmentatie door de gegevens te verwerken die zijn verzameld van polarisatiecamera's. Het kon echter geen veelbelovende resultaten behalen op een echte robot om de transparante objecten vast te pakken. Om deze problemen op te lossen, zal ik in dit onderzoek gebruik maken van meerdere diepgaande leermethoden om met deze taken om te gaan, die als volgt in vier delen kunnen worden verdeeld: 1. De voorbewerking van puntenwolkgegevens. Aangezien het trainingsproces wordt uitgevoerd op synthetische objecten en het testproces wordt uitgevoerd op objecten uit de echte wereld, is het noodzakelijk om gemeenschappelijke kenmerken uit de puntenwolkgegevens te extraheren, zoals RGB-informatie, normaal oppervlak, transparant objectmasker en occlusiegrens enzovoort. op. 2. Functie-extractie. Na het verkrijgen van de verschillende gemeenschappelijke kenmerken uit deel één, zijn er verschillende manieren om met deze kenmerken om te gaan. Voor de 2D-functies, zoals RGB-informatie, transparante objectmaskers en occlusiebegrenzing, gebruiken we bijvoorbeeld ResNet101 en DenseNet om dichte functies te extraheren. Voor 3D-kenmerken, zoals normaal- en dieptekaarten van het oppervlak, zouden op transformator gebaseerde methoden een betere keuze zijn om effectieve kenmerken te extraheren. 3. De introductie van Generative Adversarial Network (GAN). Volgens eerder werk merken we dat de grenzen van de generatieve puntenwolk vervagen, wat leidt tot niet-ideale resultaten voor de algehele voorspelling. Daarom zullen we in dit onderzoek de op GAN gebaseerde methode introduceren in samenwerking met de Sobel-operator om de prestaties van de algehele resultaten te verbeteren. 4. Robotuitvoering is het laatste onderdeel dat nodig is om onze voorgestelde methode te verifiëren, we bereiden ons voor om onze methode uit te voeren op een real-world robot voor uitvoering.

Periode

16 juni 2023 - 31 maart 2024