Editor profile
矢野 哲平 / 「無料で学べるAIスキル、ロボシンク」代表
更新日:

こんにちは、ロボシンクの矢野(@robothink_jp)です。この記事では生成AIに関する情報を解説します。 読んだ方の役立つ記事になれば嬉しいです👋

ChatGPTに音声出力と複数画像のアップロードが実装

ChatGPTの新しい機能として音声による出力と1枚以上の画像を入力できる機能が実装されます。本記事では新しく実装されるChatGPTの機能について解説します。

音声と画像の新機能について公式が発表

ChatGPTを開発するOpenAI社は米国時間の9月25日、音声と画像の新しい機能について発表しました。

新しく発表された機能は音声発話と複数画像のアップロード機能です。これらの機能はChatGPT Plusユーザー向けに今後2週間を目処に実装されるとのことです。9月25日の発表なので10月9日前後に実装でしょうか。

音声発話機能

ChatGPTのアプリ版では音声「入力」機能はありました。OpenAI社が開発する音声AIの(Whisper)[https://openai.com/research/whisper]が採用されており、精度もかなり高いです。

音声入力も便利だけど音声発話機能もあればなぁ、、、と思っていましたが、その夢が実現しそうです。

ユーザーはアプリ版の設定 > 機能からボイスを選択できるように。画面右上にあるヘッドホンボタンをタップすれば5種類のボイスを選択できます。

ボイスはプロの声優と共同で開発したそうで自然な会話のようにChatGPTとやり取りできます。

ただし注意したい点は2つ。

音声発話機能は現状、モバイルアプリ版の実装でブラウザ版の提供はありません。

もう一つはプレスリリースで日本語版の言及がされていないことです。英語のみの発話機能に留まる可能性大です。

複数画像のアップロード

こちらはアプリ版、ブラウザ版の両方で提供されます。画像のアップロードはブラウザ版で提供されていましたが、新しくアプリ版でも実装されます。

さらに複数画像を1度にアップロードできるので利便性が増します。ChatGPT公式では以下のようなアイデアが提案されています。

  • 冷蔵庫の中を撮影して献立を提案してもらう
  • 仕事の書類を撮影してデータ分析してもらう

注目記事

  • 🎨Geminiで画像生成ができるように
  • 👀【新機能】GPT mentionsを使う方法
  • 🌈【新モデル】にじジャーニーV6モデルを使う方法
  • 💡Googleが動画生成AIのLumiereを発表
  • 🤖Amazonアレクサに生成AIが搭載
  • 😼動画生成AI、Pika1.0のチュートリアル
  • 🏪GPT Storeが公開!GPT Storeの使い方
  • 🚢MidjourneyでV6モデルを使う方法

  • 無料で学べるAIスキル、ロボシンク

    ロボシンクは3,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀

    コース一覧