대화형 음성 인공지능
덤프버전 : (♥ 2)
분류
1. 개요[편집]
Conversational Voice AI.
사람과 자연스럽게 대화할 수 있도록 설계된 대화형 인공지능 시스템이다. 이 시스템은 음성 인식을 통해 사용자의 말을 이해하고, 자연어 처리 기술을 사용해 그 의미를 해석한 후, 적절한 응답을 음성으로 제공하는 방식으로 작동한다.
2. 구성 요소[편집]
2.1. 음성 인식[편집]
ASR, Automatic Speech Recognition.
컴퓨터가 음성 언어를 이해하도록 만드는 기술. 대표적인 예로 Siri.
음성 인식 분야에서 Speech Recognition과 Speech-to-text (STT)는 살짝 구분되는데, Speech Recognition이 컴퓨터가 인간의 음성 언어를 이해하는 것까지 목표로 삼는다면, STT는 인간의 음성 언어를 문자 언어로 변환시키는 것 만을 목표로 삼는다. 즉, Siri가 Speech Recognition 시스템이라면, 청각 장애인을 위하여 소리를 글자로 화면에 표시해주는 기술은 STT.
- 유명한 오류
2.2. 자연어 처리[편집]
NLP, Natural Language Processing
텍스트로 변환된 사용자의 말을 분석하고 이해한다.
2.3. 대화 관리[편집]
Dialog Management
대화의 맥락을 유지하고 적절한 응답을 생성한다.
2.4. 자연어 생성[편집]
NLG, Natural Language Generation
응답할 내용을 텍스트로 작성한다.
2.5. 음성 합성[편집]
TTS, Text to Speech
생성된 텍스트 응답을 다시 음성으로 변환한다.
3. 관련 문서[편집]
이 문서의 내용 중 전체 또는 일부는 2024-06-02 02:20:02에 나무위키 대화형 음성 인공지능 문서에서 가져왔습니다.