Fireflys AIBOX eingebetteter PC für die NVIDIA Jetson Orin-Serie kann Tiefenschätzung durchführen. Diese Technologie prognostiziert die Tiefeninformationen einer Szene aus einem einzelnen oder mehreren Bildern. Sie wird weit verbreitet im Bereich von Computervisionsmodellen eingesetzt, insbesondere bei Aufgaben wie 3D-Rekonstruktion, Szenenverständnis und Umweltwahrnehmung.
Die Tiefenschätztechnologie kann in Mehrkameratiefenschätzung und Monokular-Tiefenschätzung unterteilt werden. Monokulare Kameras haben die Vorteile niedriger Kosten, weite Verbreitung der Geräte und einfache Bildaufnahme, was die Monokular-Tiefenschätztechnologie zu einem heißen Thema macht. Die rasante Entwicklung der Deep-Learning-Technologie hat auch neue Lösungen für die Monokular-Tiefenschätzung bereitgestellt.
Hardware-Unterstützung
Der AIBOX-Eingebettete Computer mit NVIDIA-Kernmodulen kann Monokular-Tiefenschätzung durchführen. Alle Produkte dieser Serie sind mit NVIDIA Jetson Orin-Systemmodulen ausgestattet, die ausgezeichnete KI-Rechenleistung, großzügigen einheitlichen Arbeitsspeicher und einen umfassenden Software-Stack bieten, um die neuesten generativen KI-Anwendungen mit ultrahoher Energieeffizienz anzutreiben.
AIBOX-OrinNX | AIBOX-OrinNano | |
Modell | NVIDIA Jetson Orin NX 16GB | NVIDIA Jetson Orin Nano 8GB |
KI-Leistung | 157 TOPS | 67 TOPS |
GPU | 1024-Kern-NVIDIA Ampere-Architektur-GPU mit 32 Tensor Cores | 1024-Kern-NVIDIA Ampere-Architektur-GPU mit 32 Tensor Cores |
CPU | 8-Kern Arm Cortex-A78 64-Bit-CPU 2MB L2 + 4MB L3 | 6-Kern Arm Cortex A78 64-Bit-CPU 1.5MB L2 + 4MB L3 |
DDR | 16GB 128-Bit LPDDR5 102.4GB/s | 8GB 128-Bit LPDDR5 68 GB/s |
HDMI | 4K@60Hz | 4K@30Hz |
Was sind Monokular-Tiefenschätzalgorithmen?


Die Monokular-Tiefenschätzung bezieht sich auf die Schätzung der Tiefeninformationen von Objekten in einer Szene durch Bilder, die von einer einzigen Kamera aufgenommen werden. Im Vergleich zu Mehrkameratiefenschätzmethoden verwendet die Monokular-Tiefenschätzmethode nur eine einzelne Kamera und stützt sich nur auf die visuellen Informationen des Bildes, um für jedes Pixel eine Tiefenschätzung durchzuführen.
FastDepth
FastDepth ist ein Tiefenschätzalgorithmus für eingebettete Systeme. Seine Kernmerkmale sind ein guter Ausgleich zwischen Geschwindigkeit und Genauigkeit und die Fähigkeit, auf ressourcenlimitierten Geräten wie Smartphones zu laufen.

Um die Modellgröße zu reduzieren, die Rechenleistung zu verbessern und das Modell besser für eingebettete Geräte geeignet zu machen, wurde der NetAdapt-Algorithmus verwendet, um FastDepth zu trimmen.

Quellcode herunterladen
- $ git clone --recursive --depth=1 https://github.com/dusty-nv/jetson-inference
Kompilieren/Installieren
Ausführungsbeispiel
- $ ./depthnet.py room_0.jpg output_room_0.jpg

Anwendungsszenarien
Autonomes Fahren
- In selbstfahrenden Autos wird die Monokular-Tiefenschätztechnologie eingesetzt, um Echtzeit-Tiefeninformationen mit geringen Kosten bereitzustellen, um Fahrzeugen zu helfen, Hindernisse zu erkennen und korrekte Fahrentscheidungen zu treffen.

Roboter Navigation
- In Umgebungen wie Fabriken, Lagerhäusern und Privathaushalten benötigen Roboter genaue Tiefeninformationen, um Hindernisse zu erkennen und zu vermeiden. Die Monokular-Tiefenschätztechnologie kann Robotern Echtzeit-Tiefenwahrnehmungsfähigkeiten geben und die Genauigkeit ihrer Navigation und Bedienung verbessern.

Erweiterte Realität (AR)
- In Anwendungen der erweiterten Realität liefert die Monokular-Tiefenschätztechnologie genaue Tiefeninformationen, sodass virtuelle Inhalte natürlicher in reale Szenen integriert werden können und das Benutzererlebnis verbessert wird.

Sicherheitsüberwachung
- Im Bereich der Sicherheitsüberwachung hilft die Monokular-Tiefenschätztechnologie dem Überwachungssystem, die Entfernung und Geschwindigkeit bewegter Objekte zu erkennen und verbessert die Genauigkeit und Echtzeitfähigkeit der Überwachung.
Virtuelle Realität (VR) und Spiele
- In der virtuellen Realität und Spielen bietet die Monokular-Tiefenschätztechnologie den Benutzern eine realistischere immersive Erfahrung. Mit genauen Tiefeninformationen können Objekte in Spielen und virtuellen Realitätsszenen eine realistischere Perspektive zeigen.
