이달의 관심연구실

서강대학교 지능정보처리 연구실 (IIP Lab.)

  • 서강대학교 지능정보처리 연구실 (IIP Lab.)
     
     
    소속대학/학과
    서강대학교/공과대학/전자공학과
     
    연구실 Web page
    http://iip.sogang.ac.kr
     
    지도교수
    박형민 교수 (hpark@sogang.ac.kr)
     
    지능정보처리 연구실
     
    그림입니다.원본 그림의 이름: CLP000011fc0003.bmp원본 그림의 크기: 가로 472pixel, 세로 141pixel  
     
    우리 연구실에서는 사용자의 편리성이 강조된 인간중심의 인터랙션 기술을 개발하기 위해 실제 환경에서 적용 가능한 영상, 음성 및 음향 정보처리 알고리즘을 연구하고 있습니다. 이러한 최신 기술은 현재 폭발적인 관심을 받고 있는 각종 스마트 기기는 물론 미래형 자동차, 가전, 각종 시스템들의 기능이 다양화/고도화되면서 필수적인 요소가 되고 있어 정부, 대기업, 벤처기업들과 다양한 신기술 개발 프로젝트를 활발히 진행하고 있습니다.
     
      주요 수행 연구 프로젝트 수주처 시작년도 완료년도
    1 시청각 정보를 이용한 실세계 실내 환경에 적합한 음성인식 인터페이스 전처리 기술 개발 삼성미래기술육성센터 2014 현재
    2 다채널 잡음제거 기술을 이용한 스마트 홈서비스용 Voice Station 개발 중소기업청 2014 현재
    3 스테레오 마이크로폰을 이용한 원거리 음성인식용 잡음처리 기술 연구 한국전자통신연구원 2014 현재
    4 시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발 한국연구재단 2014 현재
    5 잠재 역량 진단을 위한 감정특이점 기반 맞춤형 인지센싱 및 플랫폼 기술 개발 (IT 융합) 한국연구재단 2012 현재
    6 음성 하울링 제거 및 주변잡음 제거기술 연구 (주)케이엠더블유 2013 2014
    7 (산학공동)잡음원 신호 제거를 통한 음성 향상을 위한 BSS 기술 개발 서강대학교 2013 2014
    8 Multi-microphone을 이용한 원거리 음성 인식용 잡음처리 기술 한국전자통신연구원 2012 2014
    9 서강선도연구그룹 시맨틱 멀티미디어 검색 및 서비스 시스템 연구 서강대학교 2011 2014
    10 다중 감각추론 일반 모델 및 인지 향상 기술 개발 (신기술융합형 성장동력사업) 한국연구재단 2009 2014
    11 차량 내 잡음 환경에서 특정 화자의 음성 추출을 위한 Blind Source Separation 현대NGV(주) 2012 2013
    12 Multiple Object 추적이 가능한 Audio Zooming 기술 LG전자(주) 2012 2013
    13 멀티마이크로폰 및 멀티카메라를 이용한 멀티모달 딥 러닝 기반 시청각 음성인식 기술 개발 현대NGV(주) 2012 2013
    14 실세계 반향에 강인한 음성 인식 알고리즘 개발 한국연구재단 2010 2013
    15 자항식기만기 송신신호 간섭 제거 알고리즘 LIG Nex1(주) 2012 2012
    16 Hand mouse: Finger tracking and motion 엠텍비젼(주) 2011 2012
    17 모바일 단말기를 위한 지능형 음성대화 인터페이스 개발 한국연구재단 2009 2012
    18 원거리 음성인식용 음성신호 처리 기술 개발 LG전자(주) 2011 2011
    19 깊이감을 갖는 음향 효과 개발 LG전자(주) 2010 2011
    20 실제 환경에 적용 가능한 관심 음원 분리 알고리즘 개발 한국연구재단 2009 2011
    21 한일 신경정보학 연구거점교류사업 한국연구재단 2008 2011
    22 번짐 영상과 잡음 영상을 이용한 선명한 영상 복원 방법 삼성전자(주) 2009 2010
    23 관심음원 분리기술 개발 한국전자통신연구원 2009 2010
    24 지능형 로봇 영역에서의 사용자 추적기술 개발 KT미래기술연구소(주) 2007 2009
    25 차량용 음성인식 시스템을 위한 음향 신호 처리 알고리즘 개발 네토(주) 2008 2008
    26 웨이브 믹서 사운드 효과 개발 Enter Tech.(주) 2008 2008
    27 반향이 있는 환경에서 사용이 가능한 음원위치 탐색 알고리즘 개발 서강대학교 2007 2008
     
    연구 현황
     
    1. 멀티모달 / 시청각 정보처리 분야
    - 시청각 정보처리(Multimodal information processing)
    주변 잡음 등에 의한 음향 신호의 왜곡과 주변 조명 환경 등에 의한 영상 신호의 왜곡을 서로 보완하기 위해, 음향과 영상의 특징을 동시에 인식에 적용하여 주변 잡음 및 조명 환경에 보다 강인한 인식 결과를 얻을 수 있다.
     
    그림입니다.원본 그림의 이름: 멀티모달.jpg원본 그림의 크기: 가로 600pixel, 세로 313pixel
    <멀티모달 음성인식 과정>
     
    음향 신호의 잡음은 화상 신호의 잡음과 독립적이며, 이 때문에 영상 정보의 도움을 얻어 음성인식 성능을 향상시킬 수 있다.
     
    그림입니다.원본 그림의 이름: CLP000011fc61ab.bmp원본 그림의 크기: 가로 718pixel, 세로 405pixel 그림입니다.원본 그림의 이름: CLP000011fc0001.bmp원본 그림의 크기: 가로 719pixel, 세로 405pixel
    <시청각 음성인식 데모>
     
    - 음성/얼굴인식 안내로봇
    사람과 사람 사이에서 일어나는 시각과 음성을 통한 interaction처럼 사람과 컴퓨터 사이에서도 Multimodal 정보처리를 사용하여 음성/얼굴 인식을 통해 인터페이스를 구현한 로봇이다. 음원 국지화(Source localization)를 이용해 사용자의 위치를 파악해 카메라가 사용자 얼굴 쪽으로 향한 뒤, 사용자의 얼굴을 감지, tracking 그리고 음성인식을 통해 사용자가 음성으로 내린 명령을 수행한다.
     
     
    2. 음성 인식 / 향상 / 위치 추적 분야
    - 음원 국지화(Source localization)
    인간의 두 귀에 해당하는 두 센서로 들어오는 신호의 시간차(interaural time difference)나 세기차(interaural intensity difference)를 이용하여 각 음원들의 방향을 찾아낸다.
    그림입니다.원본 그림의 이름: CLP000011fc000c.bmp원본 그림의 크기: 가로 417pixel, 세로 478pixel 그림입니다.원본 그림의 이름: CLP000011fc000d.bmp원본 그림의 크기: 가로 793pixel, 세로 516pixel
    <음원에서 마이크까지의 경로차를 이용>
     
    그림입니다.원본 그림의 이름: CLP000011fc0011.bmp원본 그림의 크기: 가로 548pixel, 세로 302pixel
    <실시간 위치 추적 결과>
     
    - 원거리 음성인식(Distant speech recognition)
    실내 환경에서 마이크와 사용자의 위치가 멀리 떨어지면 반향 및 잡음의 존재로 심각한 왜곡이 생기는데 이러한 상황에서 원거리 실내 음성 인식의 성능을 향상시키는 음성인식 전처리 기술이다.
    그림입니다.원본 그림의 이름: CLP000011fc000b.bmp원본 그림의 크기: 가로 1633pixel, 세로 690pixel
    <원거리 음성 신호 처리 개요도>
     
    TV를 시청하는 환경에 있어서 잡음원의 성분을 최소화하는 ANC 단계, 여전히 남아 있는 배경 잡음과 사용자의 음성신호를 분리해 주는 BSS 단계, 강한 인식을 위해 상대적으로 왜곡이 적은 결과 신호를 구분하는 filter 추정 단계, MMSE 기반의 잡음을 억제 하는 단계, 이렇게 총 4 단계를 거쳐 원거리에서도 강인한 음성인식을 수행하도록 한다.
     
    - 단일 채널 음성 반향 제거(A single-channel speech dereverberation)
    실제 환경에 있어서, 마이크 등으로 입력되는 음성 신호는 반향 성분을 수반하게 되며, 이는 음질 및 intelligibility를 떨어뜨리는 요인이 된다. 실제 반향 환경에서 단일채널의 음성신호로부터 반향성분을 제거하고 원 음성신호를 추정하여 반향 환경에서의 음질을 개선하고 강인 음성인식을 수행하도록 한다.
    그림입니다.원본 그림의 이름: CLP000011fc000a.bmp원본 그림의 크기: 가로 1530pixel, 세로 584pixel
                                 

     
    - 실시간 음원 분리(Real time source separation)
    2개의 마이크를 통해 관심화자의 음성과 배경잡음이 동시에 입력될 때, 이 혼합신호로 부터 두 신호를 분리하여 향상된 SNR을 갖는 관심화자의 음성신호를 실시간으로 출력하는 시스템이다.
    그림입니다.원본 그림의 이름: CLP000011fc0013.bmp원본 그림의 크기: 가로 1379pixel, 세로 454pixel
    <출력 Y1, Y2의 독립성을 최대화하는 분리 매트릭스 W 학습>
     
    3. 영상인식 / 컴퓨터비전 / 영상처리 분야
    - 손동작 인식
    키보드, 마우스, 리모컨 등의 접촉식 인터페이스를 대체/보완하는 비접촉식 인터페이스에 대한 연구가 활발히 진행되고 있다. 특히 손의 모양, 포즈 변화 및 궤적을 바탕으로 한 손동작 인식에 의한 인터페이스가 대표적이다.
    그림입니다.원본 그림의 이름: CLP000011fc0015.bmp원본 그림의 크기: 가로 440pixel, 세로 320pixel 그림입니다.원본 그림의 이름: CLP000011fc0016.bmp원본 그림의 크기: 가로 427pixel, 세로 295pixel
    <깊이영상을 이용한 손 동장 인식 (Hand Mouse)>
     
    - 다시점 및 3차원 데이터 기반 인식
    다시점 기반으로 3차원 데이터를 획득하고, 다시점 또는 3차원 데이터를 기반으로 립리딩, 손동작 인식, 얼굴 인식 등을 수행한다.
     
    - 특징점 매칭 및 영상 접합
    서로 다른 시점(viewpoint)에서 촬영된 두 영상을 기하학적으로 정합하기 위해서, 영상의 특징점 검출, 특징점 매칭, 기하학적 변환 추정, 영상 변환을 차례로 수행한다. 영상 정합은 파노라마 영상 모자이크, 3D 모델링, 영상 향상 등에 이용된다.
     
    - 번짐(deblurring) 및 화질 개선
    영상의 화질 저하 요인 중, 카메라 노출 시간 동안의 카메라 또는 물체의 흔들림에 의한 동작 번짐(motion blur)이 있는데, 이를 제거하는 비교적 효과적인 방법이 잡음영상을 추가로 사용하는 번짐 제거 방법이다.
     
    4. 음악 및 음향신호처리
    음향 신호들을 어떠한 클래스(녹음 대상 분류, 감정인식, 녹음된 환경 분석, 음악 장르 등)에 속하는 소리인지를 목적에 맞게 분석하여 분류한다. 또한 음향 효과 및 합성을 위해 입력된 신호에 보간법, 위상 변조 등의 방식을 사용하여 원하는 빠르기와 음높이로 변조할 수도 있다.
    그림입니다.원본 그림의 이름: CLP000011fc001a.bmp원본 그림의 크기: 가로 773pixel, 세로 544pixel 그림입니다.원본 그림의 이름: CLP000011fc001b.bmp원본 그림의 크기: 가로 701pixel, 세로 544pixel
               <음향 신호 인식 및 분류>               <노래방기계에 응용되는 음향효과>
     
    그 외에 노래, 음성 혹은 악기 연주 신호로부터 멜로디를 추정하는 음악 멜로디 검출(melody extraction)도 수행한다. 목적에 따라 데이터의 정확한 멜로디를 검출하거나 사용자가 의도한 멜로디를 실수 혹은 주변 잡음으로부터 강인하게 검출할 수 있으며, 이를 음악 검색 및 신호의 음악적 분석에 활용할 수 있다.
    그림입니다.원본 그림의 이름: CLP000011fc001c.bmp원본 그림의 크기: 가로 1530pixel, 세로 641pixel
    <발성 멜로디 검출과 흥얼거림으로 멜로디를 인식하여 반주를 틀어주는 Smart Karaoke>
     
     
    연구실적 현황
    2015년 5월까지 지능정보처리 연구실 연구실적 현황은 다음과 같다.
    주요 연구실적으로는, 국제 논문 35편, 국제 학술 발표 30건, 국제등록 특허 3건, 국내등록 특허 17건 등 총 128건의 연구실적을 보유하고 있다.
     
    연구 성과물 통계
    년도 국제 연구 성과물 국내 연구 성과물 총계
    저널 학술발표 특허 저널 학술발표 특허
    등록 출원 등록 출원
    2015
    (5월까지)
    2         1 1 3 7
    2014 1 1   1 1 3 5 6 18
    2013 6 2     1 1 6 2 18
    2012 2 2   1 1 4 1 2 13
    2011 5 2       2 2   11
    2010 4         1     5
    2009 4   1   2       7
    2008 1 1     2 1     5
    2007 1 1             2
     
    지도교수 약력
    1993.03-1997.02 KAIST 전기및전자공학과 학사 (B.S.)
    1997.03-1999.02 KAIST 전기및전자공학과 석사 (M.S.)
    1999.03-2003.08 KAIST 전자전산학과 박사 (Ph.D.)
    2003.03-2005.02 KAIST 바이오시스템학과 박사후연수과정
    2005.03-2007.01 Carnegie Mellon University, Language Technologies Institute 박사후연수과정
    2007.03-2011.02 서강대학교 전자공학과 조교수
    2011.03-현재 서강대학교 전자공학과 부교수
     
    학술활동
    - 한국뇌공학회 학술이사
    - 한국음성학회 사업이사
    - 대한전자공학회 정회원
    - IEEE senior member
     
    수상현황
    - 2011년 4월 : SPIE Defense, Security + Sensing 학회에서 ICA 분야 Pioneer 자격으로 ICA Unsupervised Learning Award 수상
    - 2003년 12월 : IEEE International Conference on Neural Networks and Signal Processing에서 최고논문상 수상
    - 2003년 2월 : 제9회 삼성 휴먼테크논문대상 은상 수상
    - 1997년 3월 : 제3회 삼성 휴먼테크논문대상 장려상 수상