산업자동화장비 수리/구매/유지보수 (주)엠이티

빨리고쳐엠이티 1670-8257

M.E.T/M.E.T Tip

[M.E.T TIP] 이미지+명령 넣으면 글이 술술…카카오브레인 ‘허니비’ 공개

(주)엠이티 M.E.T Co.,Ltd 2024. 1. 22. 08:37

안녕하세요~ (주)엠이티입니다.

한 주의 시작이 밝았습니다.

이번주는 강추위와 눈소식이 있다고 하니

출퇴근길 유의하시길 바랍니다.

카카오에서 자체개발한

멀티모달 언어모델 오픈소스를 공개했다고 합니다.

자세한 소식을 엠이티와 알아볼까요?


이미지+명령 넣으면 글이 술술

카카오브레인 ‘허니비’ 공개

카카오브레인이 자체 개발한 멀티모달 (텍스트, 이미지, 음성 등

다양한 형태의 데이터를 인식,생성하는 것) 언어모델의

오픈소스 '허니비'를 공개했습니다.

카카오브레인은 "현재 멀티모달 언어모델에 대한 연구는

공개된 모델의 수가 적고, 학습 방법 역시 자세히

공개되지 않아 개발이 어려운 상황"이라며

"카카오브레인은 멀티모달 언어모델의 발전에 기여하고자

자체 개발한 허니비의 소스코드를 공개하기로 결정했다"고 설명했습니다.

이날 카카오브레인의 오픈소스 허니비는

온라인 소스코드 저장소 깃허브에 공개됐습니다.

멀티모달 언어모델은 이미지와 명령어를 입력하면 텍스트로 답변하는 모델로,

텍스트로만 입,출력하는 거대언어모델에서 확장된 형태입니다.

이미지와 텍스트 모두 입력한 뒤 이미지에 담긴 장면을 묘사하거나

이미지와 텍스트가 혼합된 질문을 하면, 이를 이해하고 답변할 수 있습니다.

만약 허니비에 '농구 경기 중인 두 명의 선수'이미지와 함께

'왼쪽 선수는 몇 번 우승했나요?' 라는 질문을 영어로 입력하면,

허니비가 입력된 이미지와 내용과 질문을 종합적으로 이해하고

답변을 생성해내는 것 입니다.

카카오브레인은 MME, MMBench, SEED-Bench 등의

벤치마크에서 모델이 공개된 타사 멀티모달 언어모델 대비 최고 성능을 달성했다며

특히 지각 능력과 인지 능력을평가하는 MME 벤치마크에서는

2800점 만점 중 1977점을 받았다고 밝혔습니다.

카카오브레인은 이미지를 입력하고, 텍스트로 질문하면

답변을 생성하는 허니비의 멀티모달 언어모델 특성에 따라

향후 효과적인 교육,학습 보조 도구로 사용될 수 있을 것으로 전망합니다.


폭우,폭설피해,태풍피해, 침수, 공장 화재, 공장 설비 중단 등

피해를 입은 공장설비의 가동중단,

긴급복구를 위해 산업용 자동화 장비의 모든 것!

빠른 대응 빠른 대처

빨리고쳐 엠이티!

사업자 정보 표시
주식회사 엠이티 | 김영삼 | 대전광역시 유성구 테크노11로 46 | 사업자 등록번호 : 314-86-33419 | TEL : 042-934-8257 | 통신판매신고번호 : 제 2014-대전유성-0334호 | 사이버몰의 이용약관 바로가기