대화형 음성 인공지능

분류

인공지능

1. 개요

2. 구성 요소

2.1. 음성 인식

2.2. 자연어 처리

2.3. 대화 관리

2.4. 자연어 생성

2.5. 음성 합성

3. 관련 문서

1 . 개요[편집]

Conversational Voice AI.

사람과 자연스럽게 대화할 수 있도록 설계된 대화형 인공지능 시스템이다. 이 시스템은 음성 인식을 통해 사용자의 말을 이해하고, 자연어 처리 기술을 사용해 그 의미를 해석한 후, 적절한 응답을 음성으로 제공하는 방식으로 작동한다.

2 . 구성 요소[편집]

2.1 . 음성 인식[편집]

ASR, Automatic Speech Recognition.

컴퓨터가 음성 언어를 이해하도록 만드는 기술. 대표적인 예로 Siri.

음성 인식 분야에서 Speech Recognition과 Speech-to-text (STT)는 살짝 구분되는데, Speech Recognition이 컴퓨터가 인간의 음성 언어를 이해하는 것까지 목표로 삼는다면, STT는 인간의 음성 언어를 문자 언어로 변환시키는 것 만을 목표로 삼는다. 즉, Siri가 Speech Recognition 시스템이라면, 청각 장애인을 위하여 소리를 글자로 화면에 표시해주는 기술은 STT.

유명한 오류

음성	It's hard to recognize speech.
STT	It's hard to wreck a nice beach.

2.2 . 자연어 처리[편집]

NLP, Natural Language Processing

텍스트로 변환된 사용자의 말을 분석하고 이해한다.

2.3 . 대화 관리[편집]

Dialog Management

대화의 맥락을 유지하고 적절한 응답을 생성한다.

2.4 . 자연어 생성[편집]

NLG, Natural Language Generation

응답할 내용을 텍스트로 작성한다.

2.5 . 음성 합성[편집]

TTS, Text to Speech

생성된 텍스트 응답을 다시 음성으로 변환한다.

3 . 관련 문서[편집]

이 문서의 내용 중 전체 또는 일부는 2024-06-02 02:20:02에 나무위키 대화형 음성 인공지능 문서에서 가져왔습니다.

대화형 음성 인공지능

분류

1. 개요[편집]

2. 구성 요소[편집]

2.1. 음성 인식[편집]

2.2. 자연어 처리[편집]

2.3. 대화 관리[편집]

2.4. 자연어 생성[편집]

2.5. 음성 합성[편집]

3. 관련 문서[편집]

관련 문서