Research

Recent Issues

[1] Query-by-Example based Wake-up Word Detection

Objectives

- Detect pre-defined wake-up word to activate speech-conversation system


Research Scope

- Discriminative acoustic word embedding techniques for distinguishing wake-up word from others

- Robustness to noisy and distant environments

- Real-time processing techniques for a limited amount of computing resources

[2] Joint Learning for Voice Activity Detection

Objectives

- Identify segments of speech in audio utterance

- Employ a joint learning of speech enhancement (SE) and voice activity detection (VAD) to improve the noise robustness


Research Scope

- Batch normalization to reduce the internal covariate shift between the SE and VAD networks

- Parameter updates of the SE network depending not only on the SE cost but also on the VAD cost

- Denoising variational autoencoder (DVAE) for speech enhancement

[3] Deep Learning-based Acoustic Modeling with Feature Contribution Network

Objectives

- Find the contribution of each feature element through an auxiliary network called feature contribution network (FCN)

- Utilize the feature contribution for selecting useful feature elements

- Improve acoustic model generalization by the limited feature information (Occam’s Razor)


Research Scope

- Expand the idea of FCN by considering attention-based techniques in feature dimension

- Apply the FCN approach to power spectrogram before feature extraction for noise-robust ASR

[4] Least Squares Regression for Deep Learning-based Acoustic Model Adaptation

Objectives

- Adaptation by the cross entropy criterion requires various heuristic conditions since it is optimized by stochastic gradient descent

- Develop a new criterion called least squares regression (LSR) optimized by a closed-form solution for adaptation

- Utilize a radial basis function-based output layer

- Find speaker-dependent linear transforms that minimize the distance between transformed hidden outputs and class-dependent centroids


Research Scope

- Find a way of utilizing multi-class LSR (MCLSR) similar to multi-class maximum likelihood linear regression

- Develop a grouping method that represents class-dependent centroids close to each other for the purpose of MCLSR

[5] WFST-based ASR System

Advantages of WFST

- Efficient structures of speech/language components

- Reduction of the search space

- Increase of the search speed

- Easy to change the language domain in online searching

[6] End-to-End Speech Recognition

Objectives

- Conventional ASR system: separate training of its components, and expert knowledge such as pronunciation dictionary

- End-to-End ASR system: integrated model consisting of a single neural network as a whole


Research Scope

- Speaker / Domain adaptation methodology that is designed and specialized for E2E-ASR system

- Semi-supervised learning framework of E2E-ASR system in case either voice or text information is incomplete

[7] Robust Speaker Diarization for Contents Retrieval

Objectives

- Employ user-specific speech interface technology in channel selection and contents retrieval

- Develop a reliable speaker diarization technique and evaluate its effectiveness

- Speaker Diarization

- Speech segmentation according to the speaker identity

Research Scope

- Labeled speech database development for speaker diarization research

- Reliable speech detection

- GMM-based statistical modeling for speech segments

- Agglomerative BIC clustering

- Estimate number of speakers and their corresponding speech segments

[8] d-vector based Speaker Verification

Objectives

- Need to find a robust utterance level representation describing the distribution of the input data with variable-length

- The learned feature embedding need to be not only separable but also discriminative

Research Scope

- Employ the learnable residual encoding layer to aggregate the variable-length input sequence into an utterance level representation

- Apply the angular softmax loss to get more discriminative speaker embedding

[9] DNN-based Speech Synthesis System

Objectives

- DNN-based speech synthesis techniques

- Speech synthesis frameworks for conversational robots expressing emotion and personality


Research Scope

- Korean text analysis for speech synthesis

- DNN/RNN-based duration & acoustic modeling

- DNN-based waveform generation

- End-to-end speech synthesis

[10] Deep Voice Conversion

Objectives

- It is a technique to modify speech to convert speaker identity while preserving linguistic information


Research Scope

- Non-parallel voice conversion: Voice conversion towards a specific target speaker when the source speaker’s DB and the target speaker’s DB are of different speech contents

- Fitting new speaker: Voice conversion towards the target speakers who are unseen during training time

[11] Acoustic Event Detection & Classification for Surveillance Applications

Objectives

- Feature extraction technique for abnormal sound

- Distance speech recognition in emergency situation


Research Scope

- Abnormal sound characteristics analysis

- Speech/non-speech classification and Voice activity detection in surveillance environment

- Abnormal sound classification

- Robust speech recognition for distance voice source

Projects & Achievements

(66) 음성/텍스트 딥러닝 기반 보이스피싱 예방 기술 개발 (20214월 1일 ~ 2023년 12월 31일) (funded by IITP)

(65) 음성 연쇄작용의 심층학습에 기반을 둔 종단간 음성인식 및 합성 통합 상호 학습기법 연구 (2021년 3월 1일 ~ 2026년 2월 28일) (funded by NRF)

(64) 인지정서장애 환자의 음성시료 수집, 분석 및 머신러닝 기반 진단 기술 개발 (2021년 1월 1일 ~ 2023년 12월 31일) (funded by 보건복지부/서울아산병원/전북대병원)

(63) 음성 인식/합성 모듈 프로토타입 개발 (CCC 산학협력 프로젝트) (2020년 9월 1일 ~ 2021년 2월 28일) (funded by IITP)

(62) AI 음성합성 알고리즘 연구 (2020년 8월 1일 ~ 2021년 2월 28일) (funded by KT)

(61) 적대적 방식의 화자 적응적 훈련이 가능한 E2E-ASR 모델 연구 (2020년 3월 15일 ~ 2020년 11월 15일) (funded by IITP/ETRI)

(60) 열악한 환경에서의 사용자 고신뢰 음성인식 연구 (2019년 12월 18일 ~ 2025년 12월 31일) (funded by 방사청/ADD)

(59) 하이브리드 음성합성 기술 연구 (2019년 9월 27일 ~ 2020년 2월 28일) (funded by KT)

(58) 화자 적응이 가능한 통합 E2E 음성인식 시스템 연구 (2019년 4월 1일 ~ 2019년 11월 30일) (funded by IITP/ETRI)

(57) 종단간 음성인식 시스템 성능 개선 연구 (2018년 3월 15일 ~ 2018년 11월 30일) (funded by IITP/ETRI)

(56) LSTM 기반 기동어/화자 통합인식 알고리즘 개발 (2017년 10월 1일 ~ 2018년 7월 31일) (funded by LG전자)

(55) 개인화 및 다국어를 지원하는 HTS 방식 고품질 음성합성 기술 개발 (2017년 10월 1일 ~ 2020년 9월 30일) (funded by 한글과컴퓨터)

(54) 음원 다양화를 통하여 로봇의 감정 및 개성을 표현할 수 있는 대화음성합성 원천기술 개발 (2017년 7월 1일 ~ 2020년 12월 31일) (funded by KEIT)

(53) 딥 네트워크를 이용한 고성능 감성인식 및 표정기반 인증 실용화 기술 개발 (2017년 5월 1일 ~ 2018년 4월 30일) (funded by IITP)

(52) 로봇용 Free-running 임베디드 자연어 대화음성인식을 위한 원천 기술개발 (2017년 4월 1일 ~ 2018년 12월 31일) (funded by KEIT)

(51) 심층학습 기반 새로운 음향모델 단위 생성 연구 (2017년 3월 24일 ~ 2017년 11월 30일) (funded by IITP/ETRI)

(50) 딥러닝 기반 발음변이 다양성 분석 연구 (2016년 6월 1일 ~ 2016년 11월 30일) (funded by IITP/ETRI)

(49) 실내용 음성대화 로봇을 위한 원거리 음성인식 기술 및 멀티 태스크 대화처리 기술 개발 (2016년 5월 1일 ~ 2020년 4월 30일) (funded by KEIT)

(48) 순환신경망 언어모델용 동적 디코더 개발 (2016년 4월 18일 ~ 2016년 9월 30일) (funded by SKT)

(47) 로봇을 이용한 홈서비스 제공을 위한 지능 기술 개발 (2016년 3월 1일 ~ 2016년 12월 31일) (funded by KAIST)

(46) Dynamic wFST 기술 개발 및 Big-size wFST 통합 모델 생성 방법 개발 (2014년 10월 20일 ~ 2015년 6월 19일) (funded by SKT)

(45) 모바일 환경에서 음성인식 서비스의 성능향상을 위한 음향모델 및 언어모델의 비교사 베이지안 상호학습 기법 연구 (2014년 5월 ~ 2017년 4월) (funded by NRF)

(44) 사용자 디지털 감성 DNA에 기반한 디지털 생명체 기술 개발 (2014년 4월 ~ 2017년 2월) (funded by IITP)

(43) 모바일 환경에서 음성을 이용한 감정/스트레스 측정 및 관리 기술 연구 (2014년 2월 ~ 2014년 12월) (funded by KAIST)

(42) 인간 모사형 자율인지학습 기반 음성언어 지능처리 기초 연구 (2013년 12월 ~ 2014년 6월) (funded by KAIST)

(41) 스마트 현장판단형 영상/음향 보안감시 SoC 및 핵심부품 개발 (2013년 11월 ~ 2014년 10월) (funded by KEIT)

(40) Sparse model 기반 음성개선을 이용한 강인한 특징추출 연구 (2013년 6월 ~ 2014년 1월) (funded by KCC/ETRI)

(39) WFST 기반 음성인식 기술개발 (2013년 5월 ~ 2013년 12월) (funded by SKT)

(38) 네트워크 방식의 음성인증 출입시스템 연구 (2012년 12월 ~ 2013년 10월) (funded by S1)

(37) 지식학습 및 다국어 확장 방법론 연구 (2012년 6월 ~ 2017년 2월) (funded by MSIP/IITP)

(36) 음성인식 성능향상을 위한 특징추출 기법 연구 (II) (2012년 5월 ~ 2013년 1월) (funded by KCC/ETRI)

(35) FST 기반 음성인식 기술 조사 및 초기 모델 구축 (2012년 4월 ~ 2013년 2월) (funded by Voiceware)

(34) 특수음향 인식기술 개발 (2012년 4월 ~ 5월) (funded by 중소기업진흥공단)

(33) u-로봇 화자인식 기술 개발 (IV) (2011년 8월 ~ 2012년 1월) (funded by MKE/ETRI)

(32) 음성인식 성능향상을 위한 특징추출 기법 연구 (2011년 7월 ~ 2012년 1월) (funded by KCC/ETRI)

(31) 장애인을 위한 IPTV 음성인터페이스 기술 평가 연구(2010년 12월 ~ 2011년 5월) (funded by KT)

(30) 발성 장애인을 위한 개인 맞춤형 내장형 명령어 인식기 개발 (발성 장애 음성 고속 적응 엔진 개발) (2010년 6월 ~ 2014년 5월) (funded by the MKE/KEIT)

(29) 환경 왜곡에 강인한 음성 신호 다중 인덱싱 기술 연구(2010년 5월 ~ 2013년 4월) (funded by the MEST/NRF)

(28) u-로봇 화자인식 기술 개발 (Ⅲ) (2010년 6월 ~ 2011년 1월) (funded by ETRI)

(27) 유해 멀티미디어 분석을 위한 오디오 특징 분석 기술 연구(2009년 6월 ~ 2010년 1월) (funded by ETRI)

(26) 신성장동력산업용 대용량/대화형 분산처리 음성인터페이스 기술 개발(2006년 3월 ~ 2010년 2월) (funded by the MKE/KEIT)

(25) 화자적응 기반 발화검증 기술 연구(2008년 1월 ~ 2009년 2월) (funded by a company)

(24) U-로봇 화자인식 기본 알고리즘 개발(2008년 9월 ~ 2009년 1월) (funded by ETRI)

(23) 정보검색을 위한 화자인식 기술 연구(2008년 5월 ~ 2008년 8월) (funded by a company)

(22) 지능형 서비스 로봇을 위한 화자인식 기술 개발(2007년 5월 ~ 2007년 12월) (funded by ETRI)

(21) 지능형 서비스 로봇을 위한 음원추적 및 화자인식 기술 개발(2006년 5월 ~ 2006년 12월) (funded by ETRI)

(20) 지능형 서비스로봇을 위한 음원 추적 및 주의집중(2005년 6월 ~ 2006년 1월) (funded by ETRI)

(19) 한국어 음성인식 플랫폼 개발 (2004년 5월 ~ 2006년 1월) (funded by SiTEC)

(18) 가정환경에서의 음성인식을 위한 음성전처리 연구 (2004년 4월 ~ 2004년 11월): ETRI 수탁과제로서 지능형 홈 로봇의 음성 인터페이스를 위한 강인한 음성전처리기 개발에 대하여 연구

(17) 전화망환경 음성인식을 위한 강인한 음성구간 검출 기법 개발 (2003년 3월 ~ 2003년 10월): ETRI 수탁과제로서 강인한 음성인식을 위한 Aurora front-end 및 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(16) 디지털 미디어 연구 (2002년 11월 ~ 2007년 2월): MIC 수탁과제로서 유비쿼터스 컴퓨팅 관련 연구로 화자인식, 감정인식, 원거리 음성인식 등과 관련된 지능형 음성 인터페이스 기술개발을 수행

(15) 유/무선 통신망 환경에서 연속숫자음 인식을 위한 잡음에 강인한 끝점검출 알고리즘 개발 (2002년 6월 ~ 2002년 10월): ETRI 수탁과제로서 한국어 연속숫자음을 위한 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(14) 지능형 에이전트 및 메타데이터 관리기술 연구 (2002년 1월 ~ 2006년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 디지털방송연구단과 공동으로 지능형 TV 기술개발 사업의 일환으로 오디오 검색기술을 MPEG7 framework에서 개발

(13) 음성정보처리 기반기술 개발 (2001년 11월 ~ 2002년 10월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 음성정보연구센터, ICU, 보이스웨어, SL2가 공동으로 연구하는 과제에 참여하여 음성기술 성능평가 방안 연구 및 연속숫자음 인식 기술 연구 등을 수행

(12) 연속음성인식 ASIC용 음성인식 알고리즘 개발 (2000년 3월~ 2002년 2월): ㈜PAXVR에서 지원하는 산업체 수탁연구로서 연속음성인식을 위한 고성능 ASIC 내에 구현될 음향모델, 핵심어 인식 알고리즘, 미등록어 제거 알고리즘 등을 개발하고, 이를 개선하여 PC 기반 멀티미디어 교육용 S/W에 적용하는 방법 연구를 수행

(11) 대화형 음성언어 인터페이스 S/W 개발 (2000년 2월~ 2002년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 한국통신 멀티미디어연구소, ICU, 전산원, 로커스, 삼보정보통신이 공동으로 연구하는 과제에 참여하여 음성포탈 시스템용 client S/W 부분 중 핵심어인식 기반 질의어 검출 S/W를 개발하였고, 3차년도에는 이 S/W의 소형화 및 성능 개선을 수행

(10) 저가형 멀티미디어 통신단말 핵심기술 개발 (1999년 ~ 2001년): 개발될 통신단말 chip내에서 동작하는 음성인식 S/W 개발. 구현되는 기능들로는 핵심어 검색, 미등록어 제거, 가변어휘 인식, 전화음성인식, 실시간 처리 등임. 담당한 부분은 음성인식 관련 전체 시스템 구조 설계 및 핵심부분 구현

(9) PC 음성입출력 S/W 개발 (1997년 ~ 1998년): MS사의 SAPI규격을 따르는 범용 음성인식 라이브러리, 화자적응 기능 포함, 한국식 영어단어 인식 처리 가능, 미등록어 제거 기능 구현, 학습형 음성합성 라이브러리 구현, OLE-COM 환경에서 개발, 한국 PC통신에 기술이전을 하여 윈도우 기반 HITEL에 구현되어 상용화 됨.

(8) PC 음성명령 게임 개발 (1997년): Hicom사의 Corum 게임에 음성명령 기능을 구현, 게임에 음성인식 기능 구현을 국내 최초로 개발

(7) 음성명령 웹 브라우저 세계 최초 개발 (1997년): 가변어휘 음성인식 기술을 활용하여 Netscape Navigator에서의 메뉴 제어 및 링크 제어를 음성으로 수행, 국제 학술대회에서 큰 호응을 얻음

(6) 대화체 음성언어 번역 시스템 개발 (1995년 ~ 1998년): 미국, 일본, 독일 등과 공동으로 C-STAR 컨소시움을 결성하고, 국제 공동연구 활동을 통해 세계 최초의 대화음성 인식, 번역, 합성 등에 대한 연구 수행

(5) 한국어 음성 DB의 체계적 구축 및 국내 보급 선도 (1996년 ~ 1998년): 음성인식 연구에 필수적인 연구 기반을 구축하기 위하여 다양하고 대용량인 음성인식 DB를 구축하고 이를 학계, 기업체 연구소 등에 지속적으로 배포

(4) PC 윈도우 환경에서 동작하는 가변어휘 음성인식기 국내 최초 개발 (1996년): PC에서의 한국어 음성인식 개발 선도, 중소기업체에 기술 이전

(3) 일본 ATR 음성번역 통신 연구소에 파견가서 음성인식 분야 중 음향 모델링(HMnet 이용) 분석 연구 수행 (1994년 6월 ~ 1995년 5월)

(2) 한/일 자동통역 시스템 개발 (1992년 ~ 1994년 5월): 호텔예약 도메인에서의 연속음성인식, 번역, 음성합성 등을 수행하는 시스템을 SUN 워크스테이션에서 구현, 이 시스템 중 음성인식 S/W 개발 수행, Semi-continuous HMM 및 FSN 적용, 한국통신 및 일본 KDD연구소와 공동연구 수행, ETRI의 전시실에 설치

(1) KAIST 석/박사 학위과정 중의 연구개발 (1986년 ~ 1990년): 한국통신 과제로 한국어 음성인식 시스템 개발 연구를 4년간 수행, 삼익악기 과제로 전자 음악 합성기(전자 피아노) 개발 중 DMA H/W module 개발, PC에서의 멀티 태스킹 멀티 채널 ARS(Automatic Response System) H/W board 및 관련 S/W를 개발하여 국내 최초로 PC 기반 ARS 시스템 상용화, 여러가지 음성코딩 알고리즘을 통합한 S/W 기반 실시간 코딩/디코딩 S/W 개발(PCM, ADPCM, ADM, RELP, LPC10)