저커버그와 Nvidia CEO 젠슨 황과 함께하는 Meta의 최신 비디오 비전 AI 소개

작년 Meta는 이미지에서 거의 모든 것을 빠르고 신뢰할 수 있게 식별하고 윤곽을 그릴 수 있는 머신 러닝 모델인 Segment Anything으로 큰 성공을 거뒀습니다. CEO 마크 저커버그가 SIGGRAPH에서 월요일 무대에서 선보인 이어편은 이 모델을 비디오 도메인으로 확장하여 분야가 얼마나 빠르게 발전하고 있는지를 보여줍니다.

분할이란 비전 모델이 사진을 보고 부분을 선택하는 기술 용어입니다: '이것은 개이고, 개 뒤에는 나무가 있다'와 같이 바라는 바와 같이, '개로 부터 자라는 나무'가 아닌 것을 희망합니다. 수십 년동안 계속 발생해 왔지만 최근에는 훨씬 더 나아지고 빨라졌으며, Segment Anything은 큰 발전을 이룬 것입니다.

Segment Anything 2 (SA2)는 비디오에 자연스럽게 적용되어 단순히 정지된 이미지뿐만 아니라 비디오에도 적용됩니다. 물론, 첫 번째 모델을 비디오의 각 프레임에 개별적으로 실행할 수 있지만 가장 효율적인 워크플로우는 아닙니다.

'과학자들은 해파리초나 자연 서식지와 같은 것들을 연구하는 데 이런 것들을 사용합니다. 그러나 비디오에서 이것을 할 수 있고, 0순으로 수행하여 원하는 내용을 전달할 수 있다는 것은 정말 멋진 일입니다,' 저커버그는 Nvidia CEO 젠슨 황과의 대화에서 말했습니다.

비디오 처리는 물론 훨씬 더 많은 계산이 요구되며, 효율적으로 산업 전반에서 이루어진 진보의 증명으로 SA2는 데이터센터를 녹이지 않고도 실행할 수 있다는 것을 보여줍니다. 물론, 여전히 작업을 위해 심각한 하드웨어가 필요한 거대 모델이지만 빠르고 유연한 분할은 실제로 1년 전에는 거의 불가능했었습니다.

이미지 제공: Meta

이 모델은 첫 번째와 마찬가지로 무료로 사용할 수 있으며, 호스팅 버전에 대한 언급은 없으며, 이 AI 회사들이 때로는 제공하는 경우도 있습니다. 그러나 무료 데모가 있습니다.

당연히 이러한 모델을 훈련하는 데는 많은 데이터가 필요하며, Meta는 이를 위해 특별히 만든 대규모 주석이 달린 50,000개의 비디오 데이터베이스를 공개합니다. SA2를 설명하는 논문에서는 훈련에 사용된 다른 10만 개가 넘는 '내부적으로 충분히 이용 가능한' 비디오 데이터베이스도 있습니다. 이 내용은 공개되지 않았고, Meta에게 이것이 무엇이며 왜 공개되지 않았는지에 대해 더 많은 정보를 요청했습니다. (우리의 추측으로는 공개된 인스타그램과 페이스북 프로필에서 얻은 것이라고 생각합니다.)

라벨이 달린 훈련 데이터의 예시
이미지 제공: Meta

Meta는 몇 년 동안 '오픈' AI 분야에서 선두주자였지만 실제로 (저커버그가 대화에서 생각하길) PyTorch와 같은 도구들과 함께 오랜 시간 동안 그렇게 하고 있다고 합니다. 그러나 최근에 LLaMa, Segment Anything 및 몇 가지 다른 모델은 상대적으로 접근하기 쉽게 무료로 공개되어 AI 성능에 대한 일종의 지표가 되었으며, 그들의 '개방성'은 논란의 여지가 있습니다.

저커버그는 Meta에서의 개방성은 완전히 마음의 선물 때문이 아니라고 언급했지만, 그들의 의도가 부정적이라는 것은 아닙니다. '이것은 우리가 만든 것을 가장 좋게 만들 거다. 우리가 이를 오픈 시작하지 않으면 거의 잘 작동하지도 않을 것입니다, 맞죠? 우리는 이것을 오픈소스화하는 이유는 알트루이스트적인 사람들이 아니라고 생각합니다. 비록 우리는 생태계에 도움이 될 것으로 생각하지만, 우리가 만들고 있는 것을 가장 좋게 만들기 위해 이를 하고 있는 것입니다.'

이것은 분명히 잘 사용될 것입니다. GitHub을 확인해 보세요.