ChatGPTに音声出力と複数画像のアップロードが実装

ChatGPTの新しい機能として音声による出力と1枚以上の画像を入力できる機能が実装されます。本記事では新しく実装されるChatGPTの機能について解説します。

音声と画像の新機能について公式が発表

ChatGPTを開発するOpenAI社は米国時間の9月25日、音声と画像の新しい機能について発表しました。

新しく発表された機能は音声発話と複数画像のアップロード機能です。これらの機能はChatGPT Plusユーザー向けに今後2週間を目処に実装されるとのことです。9月25日の発表なので10月9日前後に実装でしょうか。

ChatGPTのアプリ版では音声「入力」機能はありました。OpenAI社が開発する音声AIの(Whisper)[https://openai.com/research/whisper]が採用されており、精度もかなり高いです。

音声入力も便利だけど音声発話機能もあればなぁ、、、と思っていましたが、その夢が実現しそうです。

ユーザーはアプリ版の設定 > 機能からボイスを選択できるように。画面右上にあるヘッドホンボタンをタップすれば5種類のボイスを選択できます。

ボイスはプロの声優と共同で開発したそうで自然な会話のようにChatGPTとやり取りできます。

ただし注意したい点は2つ。

音声発話機能は現状、モバイルアプリ版の実装でブラウザ版の提供はありません。

もう一つはプレスリリースで日本語版の言及がされていないことです。英語のみの発話機能に留まる可能性大です。

こちらはアプリ版、ブラウザ版の両方で提供されます。画像のアップロードはブラウザ版で提供されていましたが、新しくアプリ版でも実装されます。

さらに複数画像を1度にアップロードできるので利便性が増します。ChatGPT公式では以下のようなアイデアが提案されています。

XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします！(@robothink_jp)

ロボシンクは4,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀