Open Images V6 - 현지화된 서술 특성 제공

자료실
기타
작성자
인사이트캠퍼스
작성일
2020-04-09 14:47
조회
60

Open Images V6 - Now Featuring Localized Narratives

Open Images V6 - 현지화된 서술 특성 제공






*이 글은 Google AI Blog에 게시된 Jordi Pont의 글을 번역하였습니다.

Open Images는 컴퓨터 시각 작업을 위한 최신 합성곱 신경망 교육에 사용하기 위해 여러 측면에서 가장 큰 주석이 달린 이미지 데이터 세트입니다. 지난 5월 Version 5가 도입되면서, Open Images 데이터 세트에는 36M 이미지 레벨 레이블, 15.8M 바운딩 박스, 2.8M 인스턴스 세그먼트 및 391k 시각적 관계가 주석으로 표시된 9M 이미지가 있습니다. 데이터 세트 자체와 함께 관련 Open Images Challenge는 객체 감지, 인스턴스 분할 및 시각적 관계 탐지의 최신 발전에 박차를 가했습니다.











오늘, Google은 새로운 시각적 관계(예: "날아오는 디스크를 잡는 개"), 인간 행동 주석(예: "여자 점프"), 이미지 레벨 레이블(예: "페이즐리")로 Open Images 데이터 세트의 주석을 크게 확장하는 Open Images V6를 발표합니다. 특히, 이 발표는 설명되는 객체에 대해 동기화된 음성, 텍스트 및 마우스 추적으로 구성된 완전히 새로운 형태의 다중 모드 주석이라고 할 수 있는 현지화 된 서술이 추가되었습니다. Open Images V6에서 이 현지화 된 서술은 500k의 이미지에 사용할 수 있습니다. 또한 이전 작업과 쉽게 비교할 수 있도록 COCO 데이터 세트의 전체 123k의 이미지에 대해 현지화된 서술을 공개합니다.



Localized Narratives(현지화된 서술)

현지화된 서술의 동기 중 하나는 시각과 언어 사이의 연관성을 연구하고 활용하는 것인데, 일반적으로 시각과 언어 사이의 연결은 인간이 작성한 텍스트 설명과 짝을 이룹니다. 하지만 이미지 캡션의 한계 중 하나는 시각적 접지, 즉 텍스트 설명에서 단어의 이미지에 대한 현지화 부족이라고 볼 수 있습니다. 따라서 이를 보완하기 위해, 이전의 일부 작업들은 인간이 작성한 설명에 있는 명사들에 대한 바운딩 박스를 a-posteriori*로 그렸습니다. 반대로, 현지화된 서술에서는 텍스트 설명의 모든 단어가 근거로 사용됩니다.

*a-posterioria-posteriori : 일반적으로 어떠한 기능의 발생이 생득적이 아니라 경험·학습에 의해 얻어지는 것을 말한다.



현지화된 서술은 설명 중인 영역 위로 마우스를 이동시키는 동시에 이미지에 대한 음성 설명을 제공합니다. 음성 설명은 설명을 참조하는 이미지의 영역과 직접 연결하므로 접근 방식의 핵심이라고 할 수 있습니다. 설명을 보다 쉽게 이용할 수 있도록하기 위해 어노테이터(annotator)는 설명을 수동으로 번역한 다음 자동 음성 기록 결과와 정렬되었습니다. 그러면 설명에 대한 타임스탬프(Timestamps)가 복구되며, 세 가지 양식(음성, 텍스트 및 마우스 추적)이 정확하게 동기화됩니다.



말하는 것과 가리키는 것은 매우 직관적이어서, 어노테이터(annotator)들에게 작업에 대해 매우 모호한 지시를 내릴 수가 있었습니다. 이러한 지시들은 사람들이 이미지를 어떻게 묘사하는 지를 연구하기 위한 잠재적인 연구 방법을 만들어 낼 수 있었습니다. 예를 들어, 대상의 공간적 범위를 나타낼 때 다양한 스타일을 관찰하여 새로운 사용자 인터페이스 설계에 대한 유용한 통찰력을 얻을 수 있었습니다.


이러한 현지화된 서술이 나타내는 추가 데이터의 양을 파악하기 위해, 마우스 추적의 총 길이는 약 6400km이며, 모든 설명들을 멈추지 않고 소리내어 읽으면 약 1.5년이 걸립니다!

새로운 시각적 관계, 인간 행동 및 이미지 레벨 어노테이션(annotations)

현지화된 서술 외에도, Open Images V6에서는 시각적 관계 주석의 유형을 최대 1.4k만큼 증가시켜 "스케이트 보드를 타는 사람", "남자와 여자의 손을 잡고있는 사람", "비행 디스크를 잡는 개"와 같은 주석을 추가시킬 수 있었습니다.



이미지 속의 사람들은 컴퓨터 비전의 핵심이 되어 왔으며, 사람들이 무엇을 하고 있는지 이해하는 것은 많은 응용 분야에서 가장 중요합니다. 따라서, Open Images V6에는 "뛰기", "미소" 또는 "눕기"와 같은 독립 실행형 동작을 수행하는 인간에 대한 2.5M 주석을 포함할 수 있습니다.


마지막으로, 2,300만 개의 새로운 인간 검증 이미지 레벨 레이블을 추가하여 거의 20,000개의 범주에서도 총 59.9m에 도달했습니다.

결론

Open Images V6는 이미지 분류, 객체 감지, 시각적 관계 감지 및 인스턴스 분할의 통합 주석을 개선하기 위한 중요한 질적 및 양적 단계로, 비전과 언어를 현지화된 서술과 연결하는 새로운 접근 방식을 취합니다. Open Images V6가 진정한 장면 이해를 향한 진전을 활성화되기를 바랍니다.

번역 – 핀인사이트 인턴연구원 김륜하

원문 보러가기

https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html






전체 0

전체 572
번호 썸네일 제목 작성자 작성일 추천 조회
공지사항 [공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
인사이트캠퍼스 | 2020.03.05 | 추천 0 | 조회 758
인사이트캠퍼스 2020.03.05 0 758
공지사항
비밀글 파이썬으로 배우는 블록체인 구조와 이론 (위키북스)
finweb | 2019.07.05 | 추천 0 | 조회 14
finweb 2019.07.05 0 14
569 딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
인사이트캠퍼스 | 2020.05.25 | 추천 0 | 조회 35
인사이트캠퍼스 2020.05.25 0 35
568 퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 90
인사이트캠퍼스 2020.05.18 0 90
567 딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 41
인사이트캠퍼스 2020.05.18 0 41
566 동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
인사이트캠퍼스 | 2020.05.14 | 추천 0 | 조회 123
인사이트캠퍼스 2020.05.14 0 123
565 2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
인사이트캠퍼스 | 2020.05.13 | 추천 0 | 조회 135
인사이트캠퍼스 2020.05.13 0 135
564 자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
인사이트캠퍼스 | 2020.05.11 | 추천 0 | 조회 153
인사이트캠퍼스 2020.05.11 0 153
563 좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 131
인사이트캠퍼스 2020.05.06 0 131
562 그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 113
인사이트캠퍼스 2020.05.06 0 113
561 변동성 측정의 이해
변동성 측정의 이해
변동성 측정의 이해
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 137
인사이트캠퍼스 2020.05.06 0 137
560 새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 116
인사이트캠퍼스 2020.04.29 0 116
559 2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 133
인사이트캠퍼스 2020.04.29 0 133
558 AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 74
인사이트캠퍼스 2020.04.29 0 74
557 블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 83
인사이트캠퍼스 2020.04.29 0 83
556 간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 118
인사이트캠퍼스 2020.04.29 0 118
555 디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
인사이트캠퍼스 | 2020.04.27 | 추천 0 | 조회 152
인사이트캠퍼스 2020.04.27 0 152
554 2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
인사이트캠퍼스 | 2020.04.20 | 추천 0 | 조회 370
인사이트캠퍼스 2020.04.20 0 370
553 Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
인사이트캠퍼스 | 2020.04.13 | 추천 0 | 조회 84
인사이트캠퍼스 2020.04.13 0 84
552 미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 61
인사이트캠퍼스 2020.04.09 0 61
551 Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 60
인사이트캠퍼스 2020.04.09 0 60
550 외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 47
인사이트캠퍼스 2020.04.09 0 47