ChatGPTに音声機能と画像認識機能を新たに追加

本ページはプロモーションが含まれています

OpenAIがChatGPTの最新機能を発表しました。

音声会話機能画像認識機能

ChatGPT can now see, hear, and speak

今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して新機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能になり、音声コミュニケーション機能はiOS版ChatGPTとAndroid版ChatGPTでのみ利用可能になる予定です。

1. 音声会話機能

音声会話機能により、ユーザーは文字を入力することなく、ChatGPTと音声でコミュニケーションをとることが可能になります。これにはOpenAIのオープンソースの音声認識システム「Whisper」が使用され、ユーザーの音声をリアルタイムでテキストに変換します。また、返答としては新しいテキスト読み上げモデルを採用。数秒のサンプル音声から人間らしい音声が生成されることが特徴です。この機能はiOS版とAndroid版のChatGPTでのみ利用可能となります。

2. 画像認識機能

もう一つの注目の機能が、ChatGPTが画像の内容を認識する「画像認識機能」です。ユーザーはキャプチャした画像を選択し、それをChatGPTに送信することで、画像の内容に関する質問や説明を受け取ることができます。さらに、描画ツールを利用して画像上に補足的な説明や注釈を加えることも可能です。この機能は、マルチモーダルGPT-3.5およびGPT-4によって強化されており、これらのモデルは言語推論スキルを様々な画像にも適用することができるとされています。この機能はすべてのプラットフォームでの利用が可能です。

画像認識機能では、Webサービスのスクショからコードを書いてもらうことができるなどの話もあったので、かなり期待しています。

まとめ

OpenAIのChatGPTが、音声と画像機能を搭載してきました。会話も可能となり、AIとのコミュニケーションが可能となることから大変興味深く変化を期待しています。まもなく、新機能が利用可能になるので楽しみに待ちたいと思います。

関連記事

  • この記事を書いた人

drーharv

こんにちは、Dr. Harv です。専門医としてのキャリアを積む一方で、資産運用、副業、ポイ活にも取り組んでいます。 このブログ「dr-harv.com」では、日々の日常、投資の知見、趣味など幅広いトピックを扱っています。より良い未来につながることをコンセプトにしています。読者の皆様にとって何か役立つ情報を提供できれば幸甚です。

-ChatGPT