미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지

자료실
기타
작성자
인사이트캠퍼스
작성일
2020-04-09 16:05
조회
62

Real-Time 3D Object Detection on Mobile Devices with MediaPipe

미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지


*이 기사는 Google AI Blog에 작성된 Adel Ahmadyan and Tingbo Hou의 글을 번역하였습니다.

물체 감지는 광범위하게 연구된 컴퓨터 시력 문제지만, 대부분의 연구는 2D 물체 예측에 초점을 맞추었다. 2D 예측은 2D 바운딩박스(Bounding boxes)만 제공하는 반면, 예측을 3D로 확대하면 물체의 크기와 위치, 방향 등을 전 세계에서 포착할 수 있어 로봇공학, 자율주행차, 영상검색, 증강현실 등에서 다양한 응용을 할 수 있다. 2D 물체 감지는 비교적 오래됐고 업계에서 널리 사용되어 왔지만, 2D 영상으로부터 3D 물체를 감지하는 것은 데이터 부족과 카테고리 내 물체의 외관 및 형태 다양성 때문에 어려운 문제다.

오늘, 우리는 일상 물체를 위한 이동 실시간 3D 객체 감지 파이프라인인 미디어 파이프 오브젝트론(Objectron)의 출시를 발표한다. 이 파이프라인은 2D 영상에서 물체를 감지하고, 새로 생성된 3D 데이터셋에 대해 훈련된 머신러닝(ML) 모델을 통해 그 포즈와 크기를 추정한다. 다양한 형태의 지각 데이터를 처리하기 위한 파이프라인 구축을 위한 오픈 소스 교차 플랫폼 프레임워크인 미디어 파이프에 구현된 오브젝트론은 모바일 장치에서 실시간으로 객체 지향 3D 바운딩 박스를 계산한다.




실제 3D 교육 데이터 수집

거리 장면에 대한 3D 데이터는 충분하지만, LIDAR과 같은 3D 캡처 센서에 의존하는 자율주행차에 대한 연구의 인기로 인해 보다 세분화된 일상 물체에 대한 실제 위치의 3D 주석을 가진 데이터 셋은 극히 제한적이다. 이 문제를 극복하기 위해 모바일 증강현실(AR) 세션 데이터를 활용한 새로운 데이터 파이프라인을 개발하였다. ARCore와 ARKit의 도래로, 현재 수억 대의 스마트폰은 카메라 포즈, 넓게분포된 3D 포인트 클라우드, 조명 추측, 평면 등을 포함한 AR 세션에 AR 기능과 추가 정보를 캡처할 수 있는 기능을 갖추고 있다.

실제 위치 데이터에 라벨을 붙이기 위해 AR 세션 데이터와 함께 사용할 수 있는 새로운 주석 도구를 만들었는데, 이를 통해 주석자들이 객체에 대한 3D 바운딩 박스에 신속하게 라벨을 붙일 수 있다. 이 도구는 3D 점 모음, 카메라 위치 및 오른쪽의 감지된 평면을 보여주는 뷰와 함께 왼쪽에 3D 바운딩 박스로 겹쳐진 2D 비디오 프레임을 표시하기 위해 분할 화면 뷰를 사용한다. 주석자는 3D 뷰에 3D 바운딩 박스를 그리고 2D 비디오 프레임의 투영을 검토하여 위치를 확인한다. 정적 객체의 경우, 한 프레임의 객체에 주석을 달아 그 위치를 ground truth 카메라 포즈 정보를 사용하여 모든 프레임에 전파하면 되기 때문에 AR 세션 데이터로부터 정보를 얻을 수 있으므로 절차가 매우 효율적이다.



 

AR 합성 데이터 생성

일반적인 접근법은 예측의 정확도를 높이기 위해 실제 데이터를 합성 데이터로 보완하는 것이다. 그러나, 그렇게 하려는 시도는 종종 부실하고 비현실적인 데이터를 산출하거나, 실제 렌더링의 경우 상당한 노력과 계산이 필요하다. “AR 합성 데이터 생성” 이라고 불리는 우리의 새로운 접근 방식은 카메라 포즈, 감지된 평면 표면, 조명 추측을 활용하여 장면과 일치하는 장소와 조명을 생성할 수 있는 AR 세션 데이터가 있는 장면에 가상 객체를 배치한다. 이 접근방식은 장면 형상을 존중하고 실제 배경에 매끄럽게 맞는 렌더링된 객체를 가진 고품질 합성 데이터를 산출한다. 실제 데이터와 AR 합성 데이터를 결합함으로써 정확도를 10% 정도 높일 수 있다.



 

3D 객체 감지를 위한 머신러닝(ML) 파이프라인

단일 RGB 영상에서 물체의 포즈와 물리적 크기를 예측하기 위한 싱글단계 모델을 구축했다. 모델 주요기둥에는 MobileNetv2를 기반으로 구축된 인코더 디코더 아키텍처가 있다. 우리는 탐지 및 회귀와 함께 물체의 모양을 공동으로 예측하는 다중 작업 학습 접근법을 채택한다. 형상 작업은 사용 가능한 실제 위치 주석에 따라 객체의 형상 신호를 예측한다. 검출 작업의 경우, 주석에 표시된 바운딩 박스를 사용하고 박스 중심과 박스 크기에 비례하는 표준 편차를 가운데로 하는 바운딩 박스에 가우시안(Gausian)을 장착한다. 탐지의 목표는 물체의 중심 위치를 나타내는 첨두와 함께 이 분포를 예측하는 것이다. 회귀 분석 작업은 8개의 경계 박스 정점의 2D 투영을 추정한다. 바운딩 박스에 대한 최종 3D 좌표를 얻기 위해 우리는 잘 확립된 포즈 예측 알고리즘(EPnP)을 활용한다. 객체 치수에 대한 사전 지식 없이 객체의 3D 바운딩 박스를 복구할 수 있습니다. 3D 바운딩 박스를 사용하면 포즈와 객체 크기를 쉽게 계산할 수 있습니다. 아래 다이어그램은 NAT의 네트워크 아키텍처와 사후 처리를 보여 줍니다. 이 모델은 모바일 장치에서 실시간으로 실행될 수 있을 정도로 가볍다. (모바일 GPU의 경우 Adreno 650에 26 FPS).





 

 

미디어 파이프의 탐지 및 추적

모바일 기기에서 포착한 모든 프레임에 모델을 적용하면 각 프레임에서 추정된 3D 바운딩 박스의 애매함으로 인해 완벽하지 않을 수 있다. 이를 완화하기 위해 우리는 2D 객체 감지 및 추적 솔루션에서 최근에 출시된 탐지+추적 프레임워크를 채택했다. 이 프레임워크는 모든 프레임에서 네트워크를 실행할 필요성을 완화시켜, 더 무겁고 더 정확한 모델을 사용할 수 있도록 하는 동시에, 파이프라인을 모바일 장치에서 실시간으로 유지한다. 또한 프레임 전체에 걸쳐 객체 정체성을 유지하고 예측이 시간적으로 일치하도록 보장하여 애매한 부분을 감소시킨다.

모바일 파이프라인의 효율성을 높이기 위해 우리는 모델 추론을 몇 프레임에 한 번씩만 실행한다. 다음으로, 우리는 예측 하고, 이전의 블로그에서 설명한 접근방식을 사용하여 시간 경과에 따라 즉각적으로 움직임과 움직임 스킬을 추적한다. 새로운 예측이 이루어졌을 때, 우리는 중복된 영역에 근거한 추적 결과와 검출 결과를 통합한다.

연구원들과 개발자들이 우리의 파이프라인을 기반으로 실험과 프로토타입을 하도록 장려하기 위해, 우리는 끊임없는 데모 모바일 애플리케이션과 신발과 의자 두 종류에 대한 우리의 훈련된 모델을 포함한 머신러닝 파이프라인을 미디어파이프(Media Pipe)에 출시하고 있다. 우리는 넓은 연구 개발 커뮤니티와 솔루션을 공유함으로써 새로운 사용 사례, 새로운 응용, 그리고 새로운 연구 노력을 자극할 수 있기를 바란다. 향후, 우리는 우리의 모델을 더 많은 범주로 확장하고, 기기 성능을 더욱 향상시킬 계획이다.



 

번역 - 핀인사이트 인턴연구원 김재욱

원문 보러가기 > https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

 
전체 0

전체 572
번호 썸네일 제목 작성자 작성일 추천 조회
공지사항 [공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
인사이트캠퍼스 | 2020.03.05 | 추천 0 | 조회 758
인사이트캠퍼스 2020.03.05 0 758
공지사항
비밀글 파이썬으로 배우는 블록체인 구조와 이론 (위키북스)
finweb | 2019.07.05 | 추천 0 | 조회 14
finweb 2019.07.05 0 14
569 딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
인사이트캠퍼스 | 2020.05.25 | 추천 0 | 조회 36
인사이트캠퍼스 2020.05.25 0 36
568 퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 92
인사이트캠퍼스 2020.05.18 0 92
567 딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 41
인사이트캠퍼스 2020.05.18 0 41
566 동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
인사이트캠퍼스 | 2020.05.14 | 추천 0 | 조회 124
인사이트캠퍼스 2020.05.14 0 124
565 2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
인사이트캠퍼스 | 2020.05.13 | 추천 0 | 조회 136
인사이트캠퍼스 2020.05.13 0 136
564 자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
인사이트캠퍼스 | 2020.05.11 | 추천 0 | 조회 153
인사이트캠퍼스 2020.05.11 0 153
563 좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 133
인사이트캠퍼스 2020.05.06 0 133
562 그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 113
인사이트캠퍼스 2020.05.06 0 113
561 변동성 측정의 이해
변동성 측정의 이해
변동성 측정의 이해
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 138
인사이트캠퍼스 2020.05.06 0 138
560 새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 116
인사이트캠퍼스 2020.04.29 0 116
559 2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 134
인사이트캠퍼스 2020.04.29 0 134
558 AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 74
인사이트캠퍼스 2020.04.29 0 74
557 블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 84
인사이트캠퍼스 2020.04.29 0 84
556 간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 118
인사이트캠퍼스 2020.04.29 0 118
555 디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
인사이트캠퍼스 | 2020.04.27 | 추천 0 | 조회 153
인사이트캠퍼스 2020.04.27 0 153
554 2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
인사이트캠퍼스 | 2020.04.20 | 추천 0 | 조회 370
인사이트캠퍼스 2020.04.20 0 370
553 Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
인사이트캠퍼스 | 2020.04.13 | 추천 0 | 조회 85
인사이트캠퍼스 2020.04.13 0 85
552 미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 62
인사이트캠퍼스 2020.04.09 0 62
551 Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 60
인사이트캠퍼스 2020.04.09 0 60
550 외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 48
인사이트캠퍼스 2020.04.09 0 48