회사소식

언론/미디어 소식

[뉴스Q] 스피치툴스 김한우 대표, “‘On-Device 음성인식 시스템’, 데이터 외부 유출 위험 없어요!”

Author
speechtools
Date
2024-12-23 15:43
Views
245
▶ 기사 원문(출처): https://www.newsq.kr/news/articleView.html?idxno=118669

한양대 에리카 캠퍼스 컴퓨터공학과 정교수 30년 경험으로 창업
AI 음성인식 전문기업으로 시작, 음성합성, LLM 서비스 등 제공
초기창업패키지 선정, 콜센터 제품 ‘하이브리드 AICC 시스템’ 개발

“스마트폰이나 임베디드 시스템과 같은 모바일 기기에서 자체적으로 음성을 인식해 처리할 수 있는 ‘On-Device 음성인식 시스템’을 보유하고 있습니다.”

스피치툴스 김한우 대표가 자사 제품의 우수성을 설명하면서 강한 열정을 담아 목소리를 높였습니다.

‘On-Device 음성인식 시스템’은 인터넷 서버나 클라우드에 연결할 필요가 없습니다. 그런 만큼, 데이터가 외부 서버로 전달되지 않아 비밀성 유지가 큰 장점입니다. 즉, 데이터 외부 유출 위험이 없다는 이야기입니다. 해킹 우려 같은 것도 아예 있을 수가 없습니다.

김 대표는 “예를 들어, 공공기관이나 기업 내에서 이야기한 정보가 구글이나 네이버 같은 곳을 통해 외부로 유출될 수 있다고 생각해 보세요”라며 “정말 상상만 해도 끔찍하지 않나요?”라고 손사래를 쳤습니다.

스피치툴스는 한양대 에리카 캠퍼스 컴퓨터공학과 정교수로 30년 재직한 김한우 대표가 자신의 경험을 살려 2021년 창업한 기업입니다. AI 음성인식 전문기업으로 시작, 현재는 음성합성, LLM 서비스를 제공하고 있습니다.

한양대학교 에리카 창업보육센터에 입주해 있는 스피치툴스 김한우 대표를 10월 21일 만났습니다.


AI 음성인식 전문기업 스피치툴스.
다음은 김 대표와의 일문일답.

- 스피치툴스, 어떤 기업입니까?

한양대 에리카 캠퍼스 컴퓨터공학과 정교수로 30년 재직한 저의 경험을 살려 2021년 창업한 기업입니다. AI 음성인식 전문기업으로 시작, 현재는 음성합성, LLM 서비스를 제공하고 있어요.

올해 초기창업패키지에 선정되어 AICC 아이템을 개발 중에 있고, 내년 상반기에 출시를 앞두고 있습니다.

오랜 경력으로 스피치툴스만의 STT/TTS 기술을 발전시켜 왔습니다. 기술의 우수성을 입증하기 위해 현재는 TTA기술인증 및 특허출원을 준비하고 있어요. 또한 벤처기업인증에도 도전하고 있습니다.

- 컴퓨터공학과 정교수로 35년간이나 재직하셨다고요?

그렇습니다. 현재는 명예교수로 있습니다. NLP 및 인공지능에 대한 연구 경력으로 AI 산업 트렌드에 대한 이해도가 그 누구보다 높다고 말씀드릴 수 있습니다.

- 어떤 제품들을 시장에 내놓고 계신가요?

AI 음성인식 대표 서비스인 ‘소릿글’, AI 음성합성 대표 서비스인 ‘글소리’, AI와 상담원이 공존하는 ‘하이브리드 AICC 시스템’, 기기 내장형 음성인식 서비스인 ‘On-Device STT’ 등을 선보이고 있습니다.

- 먼저, ‘소릿글’이 어떤 제품인지부터 말씀해 주세요.

일상 대화, 강의, 회의 내용 등을 포함한 4.5만 시간 학습 데이터 모델 기반의 통합 STT(Speech-to-Text) 제품입니다. 클라우드형 및 On-Device형, 두 가지를 모두 지원합니다.

30분 길이 녹음된 대화 내용을 5분 안에 텍스트로 변환합니다. 여러 사람들이 동시에 말하는 상황에서도 화자를 분리해 텍스트를 제공하고, 자동 요약 서비스도 제공합니다.

라이브 방송 자막처럼 실시간으로 음성을 문서로 제공하기도 합니다. 한국어, 영어, 태국어, 일본어 등 다국어 인식기를 보유하고 있습니다.

- ‘글소리’는 어떤 제품입니까?

정확한 발음과 자연스러운 억양의 TTS(Text-to-Speech) 솔루션입니다.

짧은 시간 내 고객 맞춤형 화자 모델 제작이 가능합니다. 학습과 추론 속도가 빠르고 높은 품질의 음성을 제공합니다. 잡음 제거, 강세 조절 등의 후처리 과정을 거쳐 깨끗한 합성음을 제공합니다. 교육, 방송, 로봇 등 다양한 분야에 적용할 수 있습니다.

- ‘하이브리드 AICC 시스템’에 대해서도 설명해 주세요.

2024년 초기창업패키지 최종 선정 후 정부지원금 보조로 연구, 개발 중입니다. AI와 상담원이 공존하는 AICC 모델입니다.

도메인 특화 sLLM을 사용하여 AI 추천 시스템을 강화하였습니다. 스피치툴스만의 원천 기술로 딜레이 없는 서비스를 제공합니다. 고객 대 상담원 시스템을 지원, 평균 상담 시간을 줄이고 통화 연결 대기 시간도 줄일 수 있습니다. 특히, 현 고객사의 개선 요청을 적극 반영해 설계한 서비스입니다.


‘기기 내장형’ 음성인식 서비스로 연속 음성인식, 명령어 음성인식 가능한 서비스.
- 마지막으로, ‘On-Device STT’ 제품은요?

‘기기 내장형’ 음성인식 서비스로 연속 음성인식, 명령어 음성인식이 가능한 서비스입니다.

1.5GHz ARM CPU와 메모리 1GB 기반 보드에서 연속음성인식이 가능합니다. 1GHz ARM CPU와 메모리 512MB 기반 보드에서 명령어음성인식 및 연속음성인식이 가능하고요.

무엇보다, 데이터가 외부 서버로 전달되지 않아 비밀성 유지 즉, 데이터 유출 위험이 없습니다. 고객과의 상담 진행 후 맞춤형 보드로 제작할 수 있습니다.

CPU만으로도 빠른 연산 처리가 가능, 음성인식 속도를 향상시켰고, 연산 처리과정을 보드에 최적화시켜 빠른 응답 속도를 제공합니다.

- 무엇보다, ‘On-Device STT’ 제품은 데이터 유출 위험이 없다는 점이 큰 메리트겠네요.

맞습니다. 예를 들어, 공공기관이나 기업 내에서 이야기한 정보가 구글이나 네이버 같은 곳을 통해 외부로 유출될 수 있다고 생각해 보세요. 정말 상상만 해도 끔찍하지 않나요?

독자적으로 쓰는 만큼, 해킹 우려 같은 것은 아예 있을 수가 없습니다. 완전히 100% 안전하다고 말씀드릴 수 있습니다.

- 스피치툴스 제품만의 혁신성, 선도성 내지 차별성은 무엇인가요?

‘음성인식 기술’의 혁신성에 대해 말씀드리겠습니다.

먼저, ‘음성인식 솔루션’의 경우 AI 음성인식을 위해 종단형 트랜스포머(Transformer) AI 기술을 보다 빠르고 효율적으로 개량한 집포머(Zipformer) STT 모델을 보유하고 있습니다.

집포머 모델은 트랜스포머 모델의 인코더 부분을 STT에 특화한 모델입니다. 기존 트랜스포머 모델보다 적은 파라미터 수를 가짐으로써 학습 수렴이 빠를 뿐만 아니라, 동시에 더 높은 인식 정확도를 기록하고 있습니다.

음성인식을 할 때 은어, 신조어, 인명, 지명과 같은 고유명사와 같이 모델이 학습하지 못한 단어들을 모델에 빠르게 적용하기 위한 단어장 기술을 보유하고 있습니다. 이를 통해 잘 학습되지 못한 단어들도 인식 결과에 자주 포함될 수 있도록 시스템을 조작할 수 있습니다.

특정 분야의 소량 음성 데이터만으로 STT 모델을 해당 분야에 특화해 인식률을 증가시키는 미세 조정(Fine-tuning) 기술을 보유하고 있습니다. 이를 통해 회의 특화 STT 엔진, 강의 특화 STT 엔진 등을 구현할 수 있습니다.

둘째, ‘On-Device 음성인식’ 기술입니다.

서버나 클라우드에 연결할 필요 없이 스마트폰이나 임베디드 시스템과 같은 모바일 기기에서 자체적으로 음성을 인식해 처리할 수 있는 On-Device 음성인식 시스템을 보유하고 있습니다.

특히, 초소형, 초경량 등이 특징입니다. 올해 안에 펫로봇(Pet-Robot)용으로 개발을 마무리할 계획입니다.

그 밖에도, 다양한 전자기기에 장착해 음성인식 기능을 수행할 수 있습니다.

- 다양한 전자기기에 장착할 수 있다고요?

예를 들어, 정수기에 ‘On-Device STT 보드’를 장착합니다. 그러면 “찬물 틀어줘.” “뜨거운 물 틀어줘.” 말 한마디로 정수기를 제어할 수 있습니다. TV, 에어컨, 청소기 등등 거의 모든 전자기기에 활용할 수 있는 겁니다.

그 밖에 포터블기기 등에도 장치할 계획을 가지고 있습니다.

- 스피치툴스 제품의 ‘음성인식’ 수준은 어느 정도인지 궁금합니다.

어떤 수치로 말씀드리기보다 예를 들어 설명드리는 게 낫겠네요.

최근 영업사원을 1명 채용했습니다. 면접을 보는데 그 사람이 “성능이 좋아야지 영업을 하지 다른 기업 제품보다 성능이 떨어지면 영업이 가능하겠냐? 일단 성능이 나쁘면 아무리 월급을 많이 주셔도 일을 할 수가 없다.” 그러더라고요. 그 사람과 며칠을 두고 성능 테스트를 같이 해봤습니다. 그러고 나서 “다른 어떤 기업 제품보다 더 좋다!” 결론을 내리더라고요.

성능이 나쁘면, 일단 다른 기업과의 경쟁에서 밀립니다.

- ‘음성합성 기술’의 선도성에 대해서도 말씀해 주세요.

고객 맞춤형 음성합성 기술을 제공한 경험을 바탕으로 잡음 제거, 강세 조절 등의 후처리 과정을 거쳐 깨끗한 합성음을 제공합니다. 현재 B기업 콜센터 전문회사에서 목소리를 사용 중입니다.

음성합성 최적의 알고리즘을 적용해 약 15분의 소량 음성만으로도 음성 모델을 생성할 수 있습니다. 현재 여자, 남자 아나운서 목소리(한국어, 영어 버전)가 대표 모델입니다. 바로 구매하실 수 있습니다.

- ‘하이브리드 AICC 시스템’의 차별성은요?

2024년 초기창업패키지 선정 후 올해부터 새롭게 준비하고 있는 비즈니스 모델입니다. ‘AI 기술로 추천에 의해 상담원을 지원해주면서 답변 정답률을 높일 수 있게 하는 콜센터 제품’을 연구, 개발 중입니다.

AI가 문맥과 상황을 반영하여 추천 답변을 제공하여 상담 시간을 감축시킬 수 있습니다. Llama 3.2 버전과 GPT 4.0 mini 버전으로 제작합니다.

음성인식 결과를 키워드별로 자동 분석하여 상담 내역에 자동으로 결과가 입력되도록 개발 중입니다.

- 최근 연구개발 전담부서를 설립하셨다고요?

그렇습니다. 지금까지도 그래왔지만, 향후 1년 동안은 기술 개발에 더욱 집중할 계획입니다.

- 한양대학교 에리카 창업보육센터 입주기업입니다. 장점은?

한양대학교 에리카 캠퍼스의 인프라를 활용할 수 있다는 점입니다. 도서관, 세미나실, 식당 등을 이용할 수 있어 여러 가지로 좋습니다.

특히, 대학교인 만큼 대학생 알바생을 구하기가 쉽습니다. 갑자기 일이 밀리면 급하게 사람을 구해야 하거든요. 저희는 전문적인 능력을 갖춘 대학생을 채용해서 좋고, 대학생은 알바를 통해 학비 부담을 조금이나마 덜 수 있습니다.

- 기업을 운영하시면서 어려운 점도 있으실 것 같아요.

국내 시장의 경우 음성인식 기술 관련 기업이 너무나 많습니다.

예를 들어, 일본 시장 규모는 국내 시장 규모의 몇 배는 됩니다. 그런데 음성인식 기술 관련 기업은 고작 4~5개에 불과해요.

하지만, 국내 시장의 경우 시장은 작은데 음성인식 기술 관련 기업이 60여 개가 넘습니다. 그렇다 보니 경쟁이 치열해도 너무 치열합니다.

- 향후 비전과 계획은?

먼저, 국내외 연구기관 및 기업과의 MOU 체결입니다.

국내 대학교 전자공학과 SoC/ASIC Design 연구실과 MOU를 체결하였으며, 이를 통해 On-Device 음성인식에 대한 판로를 개척하고자 합니다. 현재 펫 로봇(Pet-Robot)에 자사의 STT를 적용해 음성기반 Voice ID 화자 식별 기술을 고도화시키는 중입니다. 이를 계기로 반려동물 시장에 진입할 예정입니다.

국내 장애인 보조공학기기 회사와 MOU를 맺어 공동 BM 모델을 수립 중에 있습니다. 스피치툴스의 STT/TTS 솔루션을 적용한 제품을 국내외 회사에 납품하는 것을 목표로 하고 있습니다.

둘째, 세계 시장으로의 진입입니다.

100여 년 전통의 국제속기기술연맹 ‘Intersteno’ 과학기술위원으로 활동하면서 트렌드를 빠르게 파악하고 있습니다. 이 경험을 바탕으로 해외로의 진출을 계획하고 있습니다.



[편집자주] 경기중소기업성장지원센터, 중앙대학교창업보육센터, 연성대학교창업보육센터, 성균관대학교창업보육센터, 한양대학교 에리카 창업보육센터, 서울대학교농생명과학창업지원센터, 한경대학교창업보육센터, 한국세라믹기술원창업보육센터(부천) 등에는 수많은 스타트업(Startup)들이 입주, 경영 전반에 대한 다양한 지원을 받고 있습니다.
뉴스Q에서는 각 센터 입주기업 대표의 인터뷰 기사를 ‘2024년 입주기업 Chang-UP! 프로젝트’ 차원에서 시리즈로 내보냅니다. 스타트업들의 성공을 향한 분투기! 올해에는 22개 입주기업 대표를 만났습니다.

스피치툴스의 전문가와 상담하기를 원하신다면 언제든지 문의바랍니다.