Geminiとは? AIの基本性能や活用事例を紹介
2022年11月にリリースされたAIチャットサービスのChatGPTは、2023年1月には、1億アクティブを獲得するなど急激に成長しました。その後、Microsoft社は、大規模言語モデルのGPT3.5を用いて、検索エンジンのBingにAI機能を組み込むなど、WEB業界ではAIが注目されました。
AI技術に注目が集まるなか、Google社は、AIチャットサービスのBardを2023年3月に英語圏の地域に一般公開しました。その後もGoogle社は、AIの開発に注力を続けます。同年12月に大規模言語モデルの(LLM)Geminiを発表し、2024年2月には、BardをGeminiに統合しました。
2024年6月現在では、最新モデルのGemini 1.5 Proが登場していて、他社モデルのGPTシリーズやClaudeシリーズとともに、性能の進化を続けています。
Geminiとは
Gemini(ジェミニ)とは、Google専門チームのGoogle DeepMindが開発した大規模言語モデル(LLM / Large Language Models)、または生成AIのことです。
大規模言語モデルをわかりやすくいうと、テキスト情報を学習させることで、人間のように自然な会話を実現するAI技術と説明されます。
その一方で、Geminiは、対話型のAIチャットサービスを指すケースもあります。話し手によって、「Gemini」が指す対象や意味合いが変化しますので、混同しないように注意してください。
LLMのGemini、AIチャットのGeminiについて
Geminiという用語は、大規模言語モデルとAIチャットの2つの意味を持ちます。
もともと、大規模言語モデル(LLM)としてGemini 1.0が2023年12月に発表されました。翌年の2024年2月には、Gemini 1.5にバージョンアップしました。あわせて、ブランディングの観点から、AIチャットサービスのBardが同モデルと統合されることになりました。そして、サービス名がBardからGemini(上位サービス=Gemini Advanced)に変更されました。こうした経緯から、大規模言語モデルとしてのGemini、AIチャットとしてのGeminiが生まれました。
その後、Gemini 1.5をアップデートして、Gemini 1.5 Pro、同 Flashの2モデルが2024年5月に発表されています。2024年6月現在では、AIチャットサービスのGemini(Gemini Advanced)に、大規模言語モデルのGemini 1.5 Proが採用されています。
ツールURL(外部):Gemini
Geminiの性能と特長
大規模言語モデルのGeminiには、次のような特徴があります。
大量のコンテキストウィンドウ
Geminiは、大規模なコンテキストウィンドウに対応しています。コンテキストウィンドウとは、応答時に、一度に参照して処理できる情報量のことです。Geminiでは、大量の情報をもとにした応答が可能ですので、高度な応答を実現します。
コンテキストウィンドウの単位には、トークン(token)が利用されます。最新AIモデルのGemini 1.5 Proでは、一度に入力できるコンテキストウィンドウが最大100万トークンです。また、環境条件はありますが、最大200万トークンになる見込みです。参考までに、ChatGPTにおける最新AIモデルのGPT4oの場合では、最大12万8000トークンとなっています。
マルチモーダル機能
Geminiは、マルチモーダル(Multimodal)と呼ばれる機能を有しています。マルチモーダルとは、テキスト、画像、音声など、さまざまな種類のコンテンツを組み合わせて処理することです。つまり、Geminiでは、応答時に、テキスト以外のコンテンツの情報も取り入れて回答できるということです。
マルチモーダル機能の強みとしては、次のような点が挙げられます。
- 人間に近い感覚で情報を扱える
- ソースになるコンテンツが増える
前者については、たとえば、テキストデータであれば論理性、画像データであれば視覚的、音声データであれば聴覚的に情報をキャッチします。こうした人間の五感に基づいて情報を処理できます。後者については、そもそもGeminiは、Google検索エンジン上にインデックスされているコンテンツを情報源としています。WEB上に存在する有用なテキスト情報には上限がありますので、画像や音声データなどを取り入れることで、シンプルに活用できる情報源が増えるということになります。
多段階推論の機能
Geminiは、多段階推論(Multi-step Reasoning)が可能です。多段階推論とは、複雑な課題に対して、要素を分解して、段階的に回答を導き出すことです。この機能によって、Gemini Advanced、AI OverviewといったGoogle社のサービスでは、複雑で長文のプロンプトや検索クエリに対して、適切な応答を可能としています。
Geminiの種類
大規模言語モデルのGeminiには、さまざまなAIモデルが存在します。そして、下記の3モデルに大別されます。
- Gemini
- Gemini Nano
- Gemini Ultra
細かくみていくと、2024年6月現在では、次のようなモデルが開発されています。
Gemini 1.5
Gemini 1.5は、Gemini 1.0をバージョンアップして、2024年2月に発表されたAIモデルです。開発者向けとして、最大で100万トークンものコンテキストウィンドウ(情報)を入力できるようになりました。従来の大規模言語モデルと比較して、長文のプロンプト(入力文)に対応可能となりました。
Gemini 1.5 Pro
Gemini 1.5 Proは、Gemini 1.5のアップグレードしたもので、2024年5月に発表されました。一般公開でも、100万トークンのコンテキストウィンドウで入力できるようになったもので、最大200万トークンにまで拡張する予定があります。この最大トークンの入力は、AIサービスのGoogle AI Studio、Vertex AI Studioで利用できます。
また、Gemini 1.5 Proは、AIチャットサービスのGemini Advancedなどにも採用される予定となっています。大幅にコンテキストウィンドウが拡張されることで、下記のようなプロンプトに対応できるようになるとのことです。
最大 1,500 ページの複数のドキュメントを理解したり、100 件の電子メールを要約したりできます。間もなく、1 時間の動画コンテンツや 30,000 行を超えるコードベースの処理も可能になります。
引用:Gemini 1.5 ProをGemini Advancedに搭載
Gemini Flash 1.5
Gemini Flash 1.5は、Gemini 1.5 Proと同時に発表されたもので、高速と軽量の両立を目指したAIモデルです。
最大100万トークンのコンテキストウィンドウを扱える点はそのままに、トークンあたりの利用料金が安く設定されています。たとえば、Gemini 1.5 Proの料金と比較すると、10分の1の価格でトークンを利用できます。
Gemini Nano with Multimodality
Gemini Nanoは、スマートフォンやタブレットといったモバイル端末で利用できるGeminiモデルです。そして、2024年5月には、マルチモーダル機能を有した、Gemini Nano with Multimodalityを発表しています。新たなAIモデルは、2024年後半に発売するAndroid端末上で搭載する予定としています。
Gemini Ultra 1.0
Gemini Ultra1.0は、2024年2月8日にリリースされたGemini Advancedに搭載されたAIモデルです。Gemini Ultra 1.0は、Geminiシリーズとしては、最上位の大規模言語モデルとして位置付けられています。
ただし、同年5月には、Gemini Advancedの基幹AIを最新モデルのGemini 1.5 Proに変更する旨を発表しています。
Geminiを搭載する製品やサービス
大規模言語モデル(LLM)のGeminiは、主にGoogle社の既存製品に採用される予定となっています。2024年6月現在で発表されているものとしては、次のようなものがあります。
Gemini Advanced(チャットAI)
引用:Gemini
Gemini Advancedは、大規模言語モデルのGeminiを搭載したAIチャットサービスです。
これまで、Gemini AdvancedのAIモデルには、Gemini Ultra 1.0が採用されていました。しかし、2024年6月より、Geminiの最新版にあたるGemini 1.5 Proに差し替え変更されました。あわせて、Gemini Advancedの契約者向けに、音声対話機能のGemini Liveの提供を順次開始しています。
サービスURL | Gemini Advanced |
---|---|
料金 | 月額2,900円〜(Google ONE AIプレミアムプラン) |
AI Overview(検索エンジンのAI機能)
AI Overview(旧:SGE)は、検索クエリに対する説明文章を掲載する、Google検索エンジンの機能です。
もともと、本検索機能は、SGE(Search Generative Experience)としてテスト運用されており、大規模言語モデルにMUM(Multitask Unified Model)が採用されていました。2024年5月に開催されたGoogle I/O 2024では、SGEの正式名称をAI Overviewに決めたほか、検索エンジン用にカスタマイズしたGeminiを採用する旨を発表しました。
なお、発表と合わせてアメリカの検索エンジンでは、AI Overviewが正式に導入されました。他国についても順次対応していくとアナウンスされています。そして、日本国内においては、6月現在では、一般導入されていません。ただし、Search Labsで試験中のAI Overviewを試すことができます。
関連記事:SGEがAI Overviewへ名称変更!何が変わった?
サービスURL | AI Overview(Search Labs) |
---|---|
料金 | 無料 |
Gemini for Workspace(WorkspaceのAI機能)
Workspaceは、GoogleドキュメントやGmailなど、Googleが提供するクラウド製品を複数人で共有して利用できるサービスです。
Gemini for Workspace、またはGoogle ONE AIプレミアムプランに加入することで、下記ツールのサイドパネルでチャットツールのGeminiを利用できます。このGeminiには、Gemini 1.5 Proを搭載する予定であると、Google I/O 2024で発表されています。
- Gmail
- ドキュメント
- スプレッドシート
- スライド
- ドライブ
サービスURL | Gemini for Workspace |
---|---|
料金 | 月額680円〜(Business Starter) |
Ask Photos(GoogleフォトのAI機能)
引用:Googleフォト
Googleフォトは、画像や動画データをクラウド上のストレージに保存、または共有できるサービスです。
本ツールに、新たにAsk Photos with geminiと呼ばれる機能が搭載されると発表されました。新機能は、GoogleフォトにGeminiを用いたチャット機能を追加するものです。Geminiに指示を出すと、ストレージのなかから指定通りの画像や動画をピックアップしてくれます。サービス提供の開始は、2024年夏を予定しています。
サービスURL | Googleフォト |
---|---|
料金 | 無料 |
Geminiと類似するAIチャット
Gemini Advancedと類似するAIチャットサービスには、ChatGTP-4oやClaude、Copilotといったものがあります。それぞれの基本情報は下記のとおりです。
AIチャット名 | LLM/性能や機能/開発 |
---|---|
Gemini Advanced | LLM :Gemini 1.5 Pro
入力トークン :最大100万(200万まで拡張予定あり) マルチモーダル:テキスト、画像、音声(予定) 開発会社 :Google |
ChatGPT-4o | LLM :GPT-4o
入力トークン :最大12万8000 マルチモーダル:テキスト、画像 開発会社 :OpenAI |
Claude | LLM :Claude 3.5 Sonnet
入力トークン :最大20万 マルチモーダル:テキスト、画像 開発会社 :Anthropic |
Copilot | LLM :GPT-4
入力トークン :最大3万2000 マルチモーダル:テキスト 開発会社 :Microsoft |
それぞれのサービスは、数ヶ月前の前身の姿と比較して、大幅に性能を引き上げています。今後のAI技術の進歩次第では、一般生活のあり方を変化させる可能性すらありますので、常に最新情報をおうように努めてください。
Geminiの使い方
AIチャットサービスとしてのGeminiを使う場合は、次のフローで作業を進めてください。
- Geminiにアクセスして、Googleアカウントでログインする
- プライバシーポリシーに同意する
- 注意事項を読んで「続ける」をクリックする
- プロンプトを入力する
さらに、上位モデルのGemini Advancedを利用したい場合は、画面左上の「Gemini」のアイコンから「アップグレード」を選択します。
Geminiの活用事例
Geminiを業務に取り込むことで、実務をサポートする役割を担ってくれます。たとえば、WEBサイトの運用担当の場合、次のような場面で役立ちます。
検索エンジンの代用として調べごとをする
Geminiは、検索エンジンの代用として調査に利用できます。検索ユーザーにとって役立ちます。
そもそも、Geminiがプロンプト(質問)に対して応答する際は、Google検索エンジンでインデックスされたWEBページを情報源として用いています。そのため、Google検索エンジン上でユーザーが求める情報を探す作業を代用する能力を有しています。
ただし、Geminiは、あくまでも、検索エンジン上のWEBページをソースとして回答しますので、誤った回答や古い情報を回答するケースもありますので注意してください。
WEBページの構成を提案してもらう
Geminiは、WEBページの構成を決めるうえで役立ちます。
たとえば、Gemini Advanced上のプロンプト(質問)に、「『東京のおすすめ居酒屋』をテーマとしたWeb記事の構成案を提示して」を入力したとします。すると、具体的な記事構成を提示します。さらに、WEB記事のターゲットとなる読者や店舗のエリアなど、プロンプトで詳細な条件を追加すると、条件を満たした構成案を提案してくれます。
WEBサイトやアプリのソースコードを生成する
Geminiは、WEBサイトやアプリケーションを構築するためのコードを作成する際に役立ちます。
たとえば、「『https://www.switchitmaker2.com/seo/search-engine-optimization/』で使われているh2のcssを書いて」と入力すると、該当ページ(※URL事例=東京SEOメーカーの記事)で使われるCSSのソースコードが表示されるとともに、解説する文章を添えてくれます。このように、自社サイトに実装したい内容を指定すると、適切なソースコードを取得できます。
ドキュメントやメールを要約する
Geminiは、テキストを要約する機能を有しています。そのため、社内のドキュメント資料やツリー上のメールのやりとりを要約した文章を提示してくれます。
Geminiは、Google製品にも組み込まれていますので、GoogleドキュメントやGmailのサイドパネルから操作できます。たとえば、指定のドキュメントを開いたうえで、サイドパネルで「ドキュメントの内容を300字程度で要約して」と指示すると、要約文を生成してくれます。
会議の議事録を自動作成する
Geminiを利用すると、社内会議や打ち合わせ時の議事録を自動生成できます。
2024年6月現在では、Google AI Studioで音声や動画ファイルの文字起こしが可能です。そこで、まずは、会議を録音してmp3形式などの音声データを取得します。その音声データをGoogle AI Studioにアップロードして、プロンプトにて文字起こしするように指示をだします。すると、音声データの文字起こしテキストを生成してくれます。
この機能を使うことで、会議の議事録のみならず、Youtubeといった動画ファイルの文字起こしも可能です。ただし、動画ファイルよりも音声ファイルのほうが文字起こしの精度が高い傾向にありますので、一度、音声ファイルに変換してから利用してください。
Geminiのよくある質問
Geminiに関する、よくある質問をまとめています。
Q:Geminiで画像生成はできますか?
Answer)Gemini Advancedで画像生成できます。ただし、画像データを扱ううえで、さまざまな条件があります。まず、2024年6月現在では、日本語で画像生成の指示を出せません。この件に関しては、開発中とのことで近日対応する予定です。現在では、英語のプロンプトで画像生成が可能となっています。
このほか、倫理的な問題から、実物の人物を含む画像ファイルは扱えなくなっています。人物の画像に関しては、画像生成だけでなく、プロンプトにアップロードして「この人物は誰ですか?」といった質問をすることもできません。
Q:Geminiで動画や音声ファイルの文字起こしはできますか?
Answer)Geminiで動画や音声ファイルをテキストに文字起こしできます。2024年6月現在では、日本においては、Google AI Studioを利用することで動画や音声ファイルのテキスト化が可能です。
Q:Gemini Advancedでは、なにができますか?
Answer)プロンプトで質問や指示をだすことで、適切な回答をえることができます。Geminiは、Google検索エンジン上のWEB情報をもとに回答コンテンツを生成します。そのため、調べ物や相談事を解決するために役立ちます。具体的には、次のようなことを実現します。
- 調べ物に対する回答をえる
- 数学の問題の解答をえる
- 自然言語を翻訳する
- 画像ファイル上のテキストを読み取る
- WEBページの構成案をえる
- テキストファイルやWEB記事を要約する
- WEBサイトやアプリケーションのソースコードをえる
Q:iPhoneでGeminiアプリを利用できますか?
Answer)2024年6月現在では、iOS向けのGeminiアプリは配信されていません。iOS端末上でGeminiを利用するためには、次の方法があります。
- Googleアプリをダウンロードする(Gemini機能が搭載されている)
- Geminiの公式サイトにアクセスする
なお、Android向けにGeminiアプリが配信されています。Android端末であれば、下記URLからGeminiアプリをダウンロードできます。
ダウンロードURL(外部):Google Play
Q:Gemini 1.5 ProとFlashの違いは?
Answer)Gemini 1.5 Flashは、Gemini 1.5 Proの高速軽量モデルとしてリリースされました。そのため、Gemini 1.5 Flashでは、次のような点でGemini 1.5 Proに勝ります。
- API経由でGeminiを利用する際の応答速度
- トークンあたりの利用料金(10分の1の価格)
複雑なプロンプトを処理する能力や応答の正確性など、性能面においては、Gemini 1.5 Proに軍配があがります。
Q:GeminiとGemmaとの違いは?
Answer)GeminiとGemmaは、ともに、Google社が開発した大規模言語モデルです。ただし、Geminiは一般利用向け、Gemmaは研究向けに開発されました。こうした違いから、Gemmaは、Geminiと比較すると、全体的な性能が抑えられているものの、オープンソースとして一般公開されています。
Q:Gemini、Bard、PaLM 2のそれぞれの関係性を教えてください
Answer)BardやPalM 2は、Geminiの前身となる存在です。
もともと、Google社は、AIチャットとしてBardを公開していました。そして、Bardには、大規模言語モデルのPaLM 2が搭載されていました。
しかし、2024年2月にGeminiのブランド化を図ろうと、BardをGeminiに名称変更しました。さらに、このAIチャットには、大規模言語モデルのGemini 1.5 Pro(2024年6月現在)が採用されています。
まとめ