메타, 시각·언어 작업용 AI 모델 공개 > 국내/해외 뉴스

회원가입 로그인

엔터스탁이 여러분의 든든한 파트너로 함께하겠습니다

소비시대 투자가 정답입니다

  • 콜백신청

    콜백신청

    성함
    관심종목
    휴대폰 - -

    [자세히보기]

메타, 시각·언어 작업용 AI 모델 공개

페이지 정보

작성자 최고관리자
작성일 2025-05-07

본문

메타는 머신 인식 및 언어 이해의 경계를 넓히는 새로운 인공지능 모델들을 공개하며 AI 역량의 도약을 알렸다. 새로운 모델 중에는 Perception Encoder, Perception Language Model (PLM), Meta Locate 3D, Dynamic Byte Latent Transformer, Collaborative Reasoner가 있으며, 각 모델은 해당 분야의 복잡한 과제를 해결하도록 설계되었다.

Perception Encoder는 이미지와 비디오에서 시각 정보를 해석하는 능력이 뛰어나 제로샷 분류 및 검색 작업에서 기존 모델을 능가한다. 자연 서식지에서 동물을 식별하는 것과 같은 어려운 작업에서 능숙함을 입증했으며, 대규모 언어 모델과 통합 후 언어 작업에서 상당한 개선을 보였다.

메타의 PLM은 인간이 레이블을 지정한 데이터와 합성 데이터를 결합하여 훈련된 오픈 소스 시각-언어 모델이다. 까다로운 시각 인식 작업을 처리하도록 설계되었으며 최대 80억 개의 파라미터를 가진 다양한 변형으로 제공된다. PLM과 함께 출시된 새로운 벤치마크인 PLM-VideoBench는 세분화된 활동 이해와 시공간적으로 근거한 추론에 중점을 둔다.

로봇 공학에서 Meta Locate 3D는 객체 현지화의 혁신을 나타내며, 로봇이 자연어 프롬프트를 사용하여 3D 세계를 이해하고 상호 작용할 수 있도록 한다. 이 모델은 3D 환경 내에서 객체를 정확하게 현지화할 수 있으며, 이는 보다 자율적이고 지능적인 로봇 시스템을 향한 중요한 단계이다. 메타는 또한 130,000개의 언어 주석을 포함하는 이 기술의 개발을 지원하기 위한 데이터 세트를 출시했다.

Dynamic Byte Latent Transformer는 언어 처리의 효율성과 견고성을 향상시키도록 설계된 메타의 또 다른 획기적인 모델이다. 이 바이트 수준 언어 모델 아키텍처는 기존 토큰화 기반 모델의 성능과 일치하며 2024년 말 연구 발표 후 커뮤니티에서 사용할 수 있다.