画像を解析するGPT-4Vが想像以上に便利だった

お世話になっております。
ダブルループの福田です。

昨年から何度か書いていますが、今回は生成AIチャットボットの最新機能について解説してみます。

昨年後半にChatGPTの新たな機能「GPT-4V」がリリースされました。

12月のコラムにてChatGPTの進化の歴史をまとめました。
https://doubleloop.co.jp/2023/12/13110/

そこから更にもう1歩進化を果たしたのです。

ではGPT-4Vで何ができるようになったのかというと・・・

画像の解析

です。

ChatGPT上に画像を添付すると、
その画像を指示した内容に従って解析してくれるという機能です。

GPT-4Vの機能を用いて出来ることは大きく5つです。

画像の説明
画像内の文章の要約
画像内データの解説
手書きの文字や図を読み取ってテキスト化
画像からコードを生成

順に説明してまいります。

1.画像の説明

画像をアップして「この画像について説明してください」と指示を送ると、画像に映り込んでいるモノや風景の解説を行ってくれます。
また場所や位置を尋ねると教えてくれます。

検索するにも固有名詞が思いつかない・・といったシーンで活躍してくれる機能の1つです。

2.画像内の文章の要約

画像に表示されている文章をテキストにしてくれるだけでなく要約することがGPT-4Vならば可能です。

テキストデータをコピペすることなく、画像を読み込ませるだけで情報を簡単にまとめあげられるようになります。

3.画像内データの解説

画像の中にグラフや表が映っている場合、その内容を解説してくれるのがこの機能です。
データを読み取る労力が必要なくなり、GPT-4Vが要約したテキストを読めばデータの概略を掴むことができます。

4.手書きの文字や図を読み取ってテキスト化

個人的にはこのテキスト化機能を最も活用しています。
たとえば会議などミーティングでホワイトボードに書いたメモをスマホで写真に収めて、それをGPT-4Vにアップします。

するとその内容を要約してテキスト化してくれるというわけです。

議事録やアイデアをまとめる際にアナログメモをデジタル化する際に重宝します。

5.画像からコードを生成

こちらはエンジニア向けの機能です。
たとえば閲覧しているwebページの構成を気に入った際、そのページのスクリーンショットを撮って、GPT-4Vにアップします。
するとそのスクリーンショットに映っているwebページのサンプルコードを書き出してくれるのです。

webデザイナーやプログラマー、UI/UXエンジニアの方にとっては業務負担を軽減することが望めます。

このように「画像を読み取って解析する」というChatGPTの新たな機能はビジネスの効率化など生産性を高めるための大きな可能性を秘めています。

是非、皆さまも一度試してみてはいかがでしょうか。

弊社サービス紹介

■できるだけ早くWEB集客を実現したい！「月額30,000円～のリスティング広告運用」
■企業版facebookページを作成「19,800円～のfacebookページ制作」
■ターゲットを絞って効率的に集客「月額30,000円～のfacebook広告運用代行」
■被リンクに頼らず検索上位へ！「ホワイトハットSEOサービス」

執筆者紹介

福田英明

株式会社ダブルループ　代表取締役

明治大学卒業後、大塚商会に入社、営業経験を経た後に楽天株式会社に転職。
楽天ではビジネスマッチングサイト「楽天ビジネス」にて営業・コンサル・マーケティング・事業企画の業務に従事。
2010年に、株式会社ダブルループを設立後、多くの企業のホームページ制作及びWEBコンサルティングを行う。
また、大小問わず様々な企業にて、WEB戦略に関する講演を多数行っている。
累計講演回数150回以上。

【著書】
「まるっと1冊でわかる! 起業を決めたら最初に読む本」翔泳社
第三章　「ホームページ作成で必要なこと」執筆