概要

本機能は、SkyWay を使った音声通話を文字起こしする機能です。専用のライブラリを利用してリアルタイムに文字起こし結果を取得できます。

提供状況 文字起こし機能のβ版提供は終了しました。現在、正式版の公開に向けて準備を進めています。
本記事に記載されている内容はβ版の情報であり、正式版では機能や仕様が変更となる可能性があります。
提供開始時期、利用条件、料金などの詳細については、決まり次第、SkyWay公式サイトおよび各種ドキュメントにてご案内いたします。

主な特徴

  • リアルタイム:無音判定により音声が細かく区切られ、低遅延で文字起こし結果を取得できます
  • 発言者の識別:文字起こし結果には発言者の情報が紐付けられるため、誰の発言かを識別できます
  • 翻訳機能:翻訳モードを ON にすると、英語と日本語の両方の文字起こし結果を取得できます
  • アーカイブ機能:文字起こし終了時に、セッション内の文字起こし結果を JSONL ファイルとしてクラウドストレージに保存できます

例えば以下のようなシーンでご活用いただけます。

  • 会議の議事録:発言者を識別して議事録を記録・表示
  • 遠隔接客:外国人との接客で互いの発言を翻訳

対応SDK

  • JavaScript SDK

他 SDK は順次対応予定です。

なお、他の SDK を利用して文字起こし中の room で発言した内容は文字起こしの対象になります。

利用方法

本機能のシステム構成は以下の通りです。

  • お客様サーバーをご用意いただき、文字起こし開始などの処理で REST API を操作する必要があります。
  • クライアント(フロントエンド)アプリにて JavaScript SDK および STT-Client ライブラリ(後述)のインストールが必要です。
  • アーカイブ機能を利用する場合は、文字起こし開始時に Create Session API のリクエストへ archive.storageConfig を指定します。
  • 文字起こし終了時に、対象セッションの文字起こし結果が JSONL 形式でまとめられ、指定したクラウドストレージにアップロードされます。

アーカイブ機能で指定できるクラウドストレージは以下です。

  • Google Cloud Storage
  • Amazon S3
  • Wasabi

設定方法の詳細は、アーカイブ機能を参照してください。

概要図

文字起こしを行う際には、エンドユーザーへの説明および同意取得が必要です。詳しくは規約をご確認ください。

STT (Speech-to-Text) Client ライブラリ

GitHub skyway-stt-client-js