Projectsへ戻る

Python
LLM
Speech-to-Speech
AI Agent
R&D

Speech-to-Speech LLM Agent

CLINKS Corporation で、音声入力と音声出力をつなぐ LLM agent の PoC を一人で作りました。

Overview

CLINKS Corporation で、音声を入れて音声で返す LLM agent の PoC を一人で作りました。Speech Recognition、LLM、音声合成をつないだ会話のループです。

FastAPI と WebSocket を使った試作を、社内評価と関係者向けデモに向けて準備しました。

What I Built

音声で完結する対話

Speech Recognition、LLM、音声合成をつなぎ、声のまま対話するループを作りました。
一人で進めた PoC

構成を決めて実装するところまで、一人で担当しました。
動く試作

会話の中心となる流れを確かめるための試作を作りました。
デモの準備

社内評価とデモに向けて、試作を準備しました。

Problems

リアルタイム音声の応答遅れを抑えること。
認識の誤りがあっても、会話の流れを崩しすぎないこと。
PoC の速さと、試作としての安定性の折り合いをつけること。

Results

音声から音声へ返す agent の試作を完成させました。
会話型の音声対話に向けた構成を試しました。
関係者へのデモに向けて準備しました。