메타, 시각·언어 작업용 AI 모델 공개
페이지 정보
작성일 2025-05-07
본문
Perception Encoder는 이미지와 비디오에서 시각 정보를 해석하는 능력이 뛰어나 제로샷 분류 및 검색 작업에서 기존 모델을 능가한다. 자연 서식지에서 동물을 식별하는 것과 같은 어려운 작업에서 능숙함을 입증했으며, 대규모 언어 모델과 통합 후 언어 작업에서 상당한 개선을 보였다.
메타의 PLM은 인간이 레이블을 지정한 데이터와 합성 데이터를 결합하여 훈련된 오픈 소스 시각-언어 모델이다. 까다로운 시각 인식 작업을 처리하도록 설계되었으며 최대 80억 개의 파라미터를 가진 다양한 변형으로 제공된다. PLM과 함께 출시된 새로운 벤치마크인 PLM-VideoBench는 세분화된 활동 이해와 시공간적으로 근거한 추론에 중점을 둔다.
로봇 공학에서 Meta Locate 3D는 객체 현지화의 혁신을 나타내며, 로봇이 자연어 프롬프트를 사용하여 3D 세계를 이해하고 상호 작용할 수 있도록 한다. 이 모델은 3D 환경 내에서 객체를 정확하게 현지화할 수 있으며, 이는 보다 자율적이고 지능적인 로봇 시스템을 향한 중요한 단계이다. 메타는 또한 130,000개의 언어 주석을 포함하는 이 기술의 개발을 지원하기 위한 데이터 세트를 출시했다.
Dynamic Byte Latent Transformer는 언어 처리의 효율성과 견고성을 향상시키도록 설계된 메타의 또 다른 획기적인 모델이다. 이 바이트 수준 언어 모델 아키텍처는 기존 토큰화 기반 모델의 성능과 일치하며 2024년 말 연구 발표 후 커뮤니티에서 사용할 수 있다.