인피닉, 퓨샷 객체 감지 연구로 SCI(E)급 국제학술지에 논문 게재

국제학술지 ‘컴퓨터 비전과 이미지 이해’에 게재된 인피닉 논문. [사진=인피닉]

[정보통신신문=서유덕기자]

인공지능 플랫폼 전문기업 인피닉은 ‘이미지-언어 유사성을 활용한 퓨샷(Few-shot) 객체 감지’ 연구 논문이 SCI(E)급 국제 학술지 ‘컴퓨터 비전과 이미지 이해’에 게재됐다고 28일 밝혔다.

인피닉의 인공지능 연구소에서 발표한 이번 논문은 이미지와 언어의 유사성을 활용해 30장 이내 적은 양의 이미지 데이터에서 객체 위치와 클래스를 검출해 객체 감지의 정확성을 높이는 모델(Re-scoring using image-language similarity for few shot object detection: RISF)의 연구 결과다.

RISF 모델은 이미지 내 객체의 위치와 클래스 정보를 검출하는 모델(Detector)과 이미지-텍스트 간 유사도를 사전 학습한 CLIP(Contrastive Language-Image Pre-training) 모델을 결합(CM-CLIP)했다. 특히, BNRL이라는 새로운 손실 함수를 만들어 모델 결합 시 발생할 수 있는 오류를 최소화하는 방법을 추가해 정확도를 높였다.

한편, RISF 모델은 글로벌 머신러닝 학술 사이트인 ‘페이퍼 위드 코드’에서 퓨샷 객체 감지 부분에서 AP 지표 25.5를 기록하며 전 세계 2위에 랭킹 됐다. 페이퍼 위드 코드는 전 세계 연구자들이 자신의 인공지능 연구 모델과 논문을 공유하는 글로벌 커뮤니티다.

인피닉의 연구 논문이 게재된 국제 학술지 ‘컴퓨터 비전과 이미지 이해(Computer Vision and Image Understanding)’는 컴퓨터 비전과 이미지 처리, 패턴 인식 등 비정형 데이터 분야의 다양한 주제를 다룬다.

이번 논문 발표를 주도한 정민재 연구원은 “RISF 모델은 객체 감지 단계에서 기존의 접근 방식보다 훨씬 뛰어난 성능을 보여준다”며 “적은 양의 비전 데이터 만으로 물체를 감지하는 데 뛰어난 성능과 정확도를 나타내기 때문에 인공지능 학습 단계에서 유용하고 효과적인 모델이 될 수 있다”고 설명했다.

박준형 대표이사는 “RISF 모델은 글로벌 커뮤니티 페이퍼 위드 코드 2위뿐만 아니라 SCI급 학술지에 실리며 세계적으로 인정을 받았다”며 “향후에도 인공지능 분야의 지속적인 연구 개발을 이어 나갈 것”이라고 말했다.

서유덕 기자 다른기사 보기