카테고리 없음

[closing 1 cycle] - 감성독서

드리밍AI 2024. 4. 8. 15:14

안녕하세요. 감성독서 역시 오랜만에 프로젝트에 대한 내용을 공유 드리고자 합니다.(결과이긴합니다.. ㅜㅜ)

새로운 것에 도전

처음 기획으로는 OCR에서부터 TTS까지 아우르는 광대한 서사를 그렸지만, 우리의 기술, 시간상 그렇게 할 수 없는 것이 현실.. 또한 AI인재양성교육인 이어드림에서 배우지 못했던 그러한 작업들이 존재. 이 부분을 어떻게 효율적으로 작업할 수 있을지, 어떤 것 부터 우리가 잡고 가는 것이 좋을지를 고민하기 시작한다.
 

우리가 할 수 있는것은?

정말 서비스로 론칭하기 위해서는 다양한 기능들이 결합이 되어야지 매력을 가지겠구나 생각이 들었다.
우리가 정해 놓은 기간 안에 많은 것들을 학습을 하면서 만들어 내기가 쉽지 않을 것이란 것을 파악.
이를 인지하고 우리가 기획한 내용을 바탕으로 작업을 세분화 하여 우리가 경쟁력을 가지고 할 수 있는 것을 선택.
그것이 바로 TTS. Text To Speech로 글자를 음성으로 처리해 주는 기술. TTS에 대해서도 기본적 서비스가 존재 하지만, 그만큼의 수준을 까라갈 수 있는 모델이 어떠한 것이 있고, 사용하기 위해서 어떻게 해야 하는지, 어떻게 그렇게 나오는 지를 학습해야 했다.

우리가 생각한 기본 흐름.

다양한 시도...

HuggingFace의 TTS관련 모델들이 존재. 그렇게 사용을 시도.
여러 모델들을 사용해 보면서 end-to-end 모델이 가장 사용하기가 쉬웠고, 그 중에서도 성능이 좋은 모델을 이용해 보고자 하였다. 이 모델을 이용하기로 하면서 음성데이터를 수집하여 가단한 문장에 대해서 음성이 생성되도록 함.
이에 더 나아가 대화형 문장에 대해서 라벨링을 톻하여 이야기가 이어질 수 있는 것을 기대. 
생성형 AI를 통해서 일반 문장이 대화형 글로 바뀔 수 있도록 작업도 하며, 그 대화의 대상에 대해 라벨링을 통해 음성이 나올 수 있도록 작업까지 진행.
 
 

openAI를 통한 작업본

 

dreamer작업본

 
 

더 좋은 TTS모델을 개발, 학습해 주길.

오픈소스로 할 수 있는 것은 솔직히 한계가 존재. 현재 우리의 리소스만으로는 학습을 시키고 새로이 만들 수 있지는 못하는 상황.
그래서 우리는 어떻게 더 효율적으로 잘 쓸 수 있을지를 고민. TTS의 경우 AI연구소 및 기업에서 성능 좋은 새로운 모델들을 만들어 주기를 바라면서 작업을 하게 되었다.
기회가 된다면 TTS에 대한 새로운 모델을 학습시켜보고 만들어 볼 수 있었으면 하는 바람도..


글 작성자 의견

감성독서 팀의 경우 실제적으로 현실에서 불편한 분들을 위해 이용 될 수 있는 서비스적 성격으로 시작이 되었습니다. 지금 조직적으로 시작하는 dreAmIng입장에서 좋은 서비스가 될 것이라 기대가 큰 프로젝트 였습니다. 또한 저희의 작업 목적에 가장 부합하는 배운 것에 대한 마무리가 어느정도 된 아이템이라 생각됩니다.
개인적으로 작성자 역시 “감성독서”팀에 드리머로 참여한 한 사람으로써, 아쉬운 부분들이 많이 있습니다. 하지만 새로운 분야에 대한 첫 발돋움과 그 이론들에 대해서 학습하면서 미약한 결과라도 만들어 냈다는 것에 대단하다는 말을 하고 싶습니다.
더 괜찮은 TTS모델이 나옴에 따라서 추가 개발을 할 수 있을 것이라 생각되며, 효율적인 TTS이용에 대한 구조 역시 다양한 방법으로 시도할 수 있을 것입니다. 다음 프로젝트에서도 그만큼 기대가 큽니다!!^^


2024_1CYCLE_감성독서팀

Leader : 임승준
Dreamer : 방시온, 이성준, 이희상, 최우성, 한찬혁
글 작성자 : 한찬혁
기간 : 2024.01.09 ~ 2024.03.06
기록 : https://github.com/dre4m1ng/emotional_reading