SEO対策の東京SEOメーカー

Geminiとは? AIの基本性能や活用事例を紹介

Geminiとは? AIの基本性能や活用事例を紹介2022年11月にリリースされたAIチャットサービスのChatGPTは、2023年1月には、1億アクティブを獲得するなど急激に成長しました。その後、Microsoft社は、大規模言語モデルのGPT3.5を用いて、検索エンジンのBingにAI機能を組み込むなど、WEB業界ではAIが注目されました。

 

AI技術に注目が集まるなか、Google社は、AIチャットサービスのBardを2023年3月に英語圏の地域に一般公開しました。その後もGoogle社は、AIの開発に注力を続けます。同年12月に大規模言語モデルの(LLM)Geminiを発表し、2024年2月には、BardをGeminiに統合しました。

 

2024年6月現在では、最新モデルのGemini 1.5 Proが登場していて、他社モデルのGPTシリーズやClaudeシリーズとともに、性能の進化を続けています。

 

amano_portraitGeminiについて解説します。Google社が本腰を入れて研究している対象のため、検索エンジンのように一般生活や仕事のあり方を変化させる可能性を秘めています。WEB業界の方だけでなく、AI技術に興味がある方も記事をチェックしてください。

 

Geminiとは

Gemini(ジェミニ)とは、Google専門チームのGoogle DeepMindが開発した大規模言語モデル(LLM / Large Language Models)、または生成AIのことです。

 

大規模言語モデルをわかりやすくいうと、テキスト情報を学習させることで、人間のように自然な会話を実現するAI技術と説明されます。

 

その一方で、Geminiは、対話型のAIチャットサービスを指すケースもあります。話し手によって、「Gemini」が指す対象や意味合いが変化しますので、混同しないように注意してください。

 

LLMのGemini、AIチャットのGeminiについて

Geminiという用語は、大規模言語モデルとAIチャットの2つの意味を持ちます。

 

もともと、大規模言語モデル(LLM)としてGemini 1.0が2023年12月に発表されました。翌年の2024年2月には、Gemini 1.5にバージョンアップしました。あわせて、ブランディングの観点から、AIチャットサービスのBardが同モデルと統合されることになりました。そして、サービス名がBardからGemini(上位サービス=Gemini Advanced)に変更されました。こうした経緯から、大規模言語モデルとしてのGemini、AIチャットとしてのGeminiが生まれました。

 

その後、Gemini 1.5をアップデートして、Gemini 1.5 Pro、同 Flashの2モデルが2024年5月に発表されています。2024年6月現在では、AIチャットサービスのGemini(Gemini Advanced)に、大規模言語モデルのGemini 1.5 Proが採用されています。

 

ツールURL(外部):Gemini

 

Geminiの性能と特長

大規模言語モデルのGeminiには、次のような特徴があります。

 

大量のコンテキストウィンドウ

Geminiは、大規模なコンテキストウィンドウに対応しています。コンテキストウィンドウとは、応答時に、一度に参照して処理できる情報量のことです。Geminiでは、大量の情報をもとにした応答が可能ですので、高度な応答を実現します。

 

コンテキストウィンドウの単位には、トークン(token)が利用されます。最新AIモデルのGemini 1.5 Proでは、一度に入力できるコンテキストウィンドウが最大100万トークンです。また、環境条件はありますが、最大200万トークンになる見込みです。参考までに、ChatGPTにおける最新AIモデルのGPT4oの場合では、最大12万8000トークンとなっています。

 

マルチモーダル機能

Geminiは、マルチモーダル(Multimodal)と呼ばれる機能を有しています。マルチモーダルとは、テキスト、画像、音声など、さまざまな種類のコンテンツを組み合わせて処理することです。つまり、Geminiでは、応答時に、テキスト以外のコンテンツの情報も取り入れて回答できるということです。

 

マルチモーダル機能の強みとしては、次のような点が挙げられます。

 

  • 人間に近い感覚で情報を扱える
  • ソースになるコンテンツが増える

 

前者については、たとえば、テキストデータであれば論理性、画像データであれば視覚的、音声データであれば聴覚的に情報をキャッチします。こうした人間の五感に基づいて情報を処理できます。後者については、そもそもGeminiは、Google検索エンジン上にインデックスされているコンテンツを情報源としています。WEB上に存在する有用なテキスト情報には上限がありますので、画像や音声データなどを取り入れることで、シンプルに活用できる情報源が増えるということになります。

 

多段階推論の機能

Geminiは、多段階推論(Multi-step Reasoning)が可能です。多段階推論とは、複雑な課題に対して、要素を分解して、段階的に回答を導き出すことです。この機能によって、Gemini Advanced、AI OverviewといったGoogle社のサービスでは、複雑で長文のプロンプトや検索クエリに対して、適切な応答を可能としています。

 

Geminiの種類

大規模言語モデルのGeminiには、さまざまなAIモデルが存在します。そして、下記の3モデルに大別されます。

 

  • Gemini
  • Gemini Nano
  • Gemini Ultra

 

細かくみていくと、2024年6月現在では、次のようなモデルが開発されています。

 

Gemini 1.5

Gemini 1.5は、Gemini 1.0をバージョンアップして、2024年2月に発表されたAIモデルです。開発者向けとして、最大で100万トークンものコンテキストウィンドウ(情報)を入力できるようになりました。従来の大規模言語モデルと比較して、長文のプロンプト(入力文)に対応可能となりました。

 

Gemini 1.5 Pro

Gemini 1.5 Proは、Gemini 1.5のアップグレードしたもので、2024年5月に発表されました。一般公開でも、100万トークンのコンテキストウィンドウで入力できるようになったもので、最大200万トークンにまで拡張する予定があります。この最大トークンの入力は、AIサービスのGoogle AI Studio、Vertex AI Studioで利用できます。

 

また、Gemini 1.5 Proは、AIチャットサービスのGemini Advancedなどにも採用される予定となっています。大幅にコンテキストウィンドウが拡張されることで、下記のようなプロンプトに対応できるようになるとのことです。

 

 

最大 1,500 ページの複数のドキュメントを理解したり、100 件の電子メールを要約したりできます。間もなく、1 時間の動画コンテンツや 30,000 行を超えるコードベースの処理も可能になります。

 

引用:Gemini 1.5 ProをGemini Advancedに搭載

 

Gemini Flash 1.5

Gemini Flash 1.5は、Gemini 1.5 Proと同時に発表されたもので、高速と軽量の両立を目指したAIモデルです。

 

最大100万トークンのコンテキストウィンドウを扱える点はそのままに、トークンあたりの利用料金が安く設定されています。たとえば、Gemini 1.5 Proの料金と比較すると、10分の1の価格でトークンを利用できます。

 

Gemini Nano with Multimodality

Gemini Nanoは、スマートフォンやタブレットといったモバイル端末で利用できるGeminiモデルです。そして、2024年5月には、マルチモーダル機能を有した、Gemini Nano with Multimodalityを発表しています。新たなAIモデルは、2024年後半に発売するAndroid端末上で搭載する予定としています。

 

Gemini Ultra 1.0

Gemini Ultra1.0は、2024年2月8日にリリースされたGemini Advancedに搭載されたAIモデルです。Gemini Ultra 1.0は、Geminiシリーズとしては、最上位の大規模言語モデルとして位置付けられています。

 

ただし、同年5月には、Gemini Advancedの基幹AIを最新モデルのGemini 1.5 Proに変更する旨を発表しています。

 

Geminiを搭載する製品やサービス

大規模言語モデル(LLM)のGeminiは、主にGoogle社の既存製品に採用される予定となっています。2024年6月現在で発表されているものとしては、次のようなものがあります。

 

Gemini Advanced(チャットAI)

Gemini Advanced(チャットAI)

引用:Gemini

 

Gemini Advancedは、大規模言語モデルのGeminiを搭載したAIチャットサービスです。

 

これまで、Gemini AdvancedのAIモデルには、Gemini Ultra 1.0が採用されていました。しかし、2024年6月より、Geminiの最新版にあたるGemini 1.5 Proに差し替え変更されました。あわせて、Gemini Advancedの契約者向けに、音声対話機能のGemini Liveの提供を順次開始しています。

 

サービスURL Gemini Advanced
料金 月額2,900円〜(Google ONE AIプレミアムプラン)

 

AI Overview(検索エンジンのAI機能)

AI Overview(検索エンジンのAI機能)

 

AI Overview(旧:SGE)は、検索クエリに対する説明文章を掲載する、Google検索エンジンの機能です。

 

もともと、本検索機能は、SGE(Search Generative Experience)としてテスト運用されており、大規模言語モデルにMUM(Multitask Unified Model)が採用されていました。2024年5月に開催されたGoogle I/O 2024では、SGEの正式名称をAI Overviewに決めたほか、検索エンジン用にカスタマイズしたGeminiを採用する旨を発表しました。

 

なお、発表と合わせてアメリカの検索エンジンでは、AI Overviewが正式に導入されました。他国についても順次対応していくとアナウンスされています。そして、日本国内においては、6月現在では、一般導入されていません。ただし、Search Labsで試験中のAI Overviewを試すことができます。

 

関連記事:SGEがAI Overviewへ名称変更!何が変わった?

 

 

サービスURL AI Overview(Search Labs)
料金 無料

 

Gemini for Workspace(WorkspaceのAI機能)

Gemini for Workspace(WorkspaceのAI機能)

引用:Gemini for Workspace

 

Workspaceは、GoogleドキュメントやGmailなど、Googleが提供するクラウド製品を複数人で共有して利用できるサービスです。

 

Gemini for Workspace、またはGoogle ONE AIプレミアムプランに加入することで、下記ツールのサイドパネルでチャットツールのGeminiを利用できます。このGeminiには、Gemini 1.5 Proを搭載する予定であると、Google I/O 2024で発表されています。

 

  • Gmail
  • ドキュメント
  • スプレッドシート
  • スライド
  • ドライブ

 

サービスURL Gemini for Workspace
料金 月額680円〜(Business Starter)

 

Ask Photos(GoogleフォトのAI機能)

Ask Photos(GoogleフォトのAI機能)

引用:Googleフォト

 

Googleフォトは、画像や動画データをクラウド上のストレージに保存、または共有できるサービスです。

 

本ツールに、新たにAsk Photos with geminiと呼ばれる機能が搭載されると発表されました。新機能は、GoogleフォトにGeminiを用いたチャット機能を追加するものです。Geminiに指示を出すと、ストレージのなかから指定通りの画像や動画をピックアップしてくれます。サービス提供の開始は、2024年夏を予定しています。

 

サービスURL Googleフォト
料金 無料

 

Geminiと類似するAIチャット

Gemini Advancedと類似するAIチャットサービスには、ChatGTP-4oやClaude、Copilotといったものがあります。それぞれの基本情報は下記のとおりです。

 

AIチャット名 LLM/性能や機能/開発
Gemini Advanced LLM     :Gemini 1.5 Pro

入力トークン :最大100万(200万まで拡張予定あり)

マルチモーダル:テキスト、画像、音声(予定)

開発会社   :Google

ChatGPT-4o LLM     :GPT-4o

入力トークン :最大12万8000

マルチモーダル:テキスト、画像

開発会社   :OpenAI

Claude LLM     :Claude 3.5 Sonnet

入力トークン :最大20万

マルチモーダル:テキスト、画像

開発会社   :Anthropic

Copilot LLM     :GPT-4

入力トークン :最大3万2000

マルチモーダル:テキスト

開発会社   :Microsoft

 

それぞれのサービスは、数ヶ月前の前身の姿と比較して、大幅に性能を引き上げています。今後のAI技術の進歩次第では、一般生活のあり方を変化させる可能性すらありますので、常に最新情報をおうように努めてください。

 

Geminiの使い方

AIチャットサービスとしてのGeminiを使う場合は、次のフローで作業を進めてください。

 

  1. Geminiにアクセスして、Googleアカウントでログインする
  2. プライバシーポリシーに同意する
  3. 注意事項を読んで「続ける」をクリックする
  4. プロンプトを入力する

 

▲青印内にプロンプトを入力して「送信」すると、Geminiが質問の回答を表示してくれます
▲青印内にプロンプトを入力して「送信」すると、Geminiが質問の回答を表示してくれます

 

さらに、上位モデルのGemini Advancedを利用したい場合は、画面左上の「Gemini」のアイコンから「アップグレード」を選択します。

 

画面左上の「Gemini」のアイコンから「アップグレード」を選択

 

Geminiの活用事例

Geminiを業務に取り込むことで、実務をサポートする役割を担ってくれます。たとえば、WEBサイトの運用担当の場合、次のような場面で役立ちます。

 

検索エンジンの代用として調べごとをする

Geminiは、検索エンジンの代用として調査に利用できます。検索ユーザーにとって役立ちます。

 

そもそも、Geminiがプロンプト(質問)に対して応答する際は、Google検索エンジンでインデックスされたWEBページを情報源として用いています。そのため、Google検索エンジン上でユーザーが求める情報を探す作業を代用する能力を有しています。

 

ただし、Geminiは、あくまでも、検索エンジン上のWEBページをソースとして回答しますので、誤った回答や古い情報を回答するケースもありますので注意してください。

 

WEBページの構成を提案してもらう

Geminiは、WEBページの構成を決めるうえで役立ちます。

 

たとえば、Gemini Advanced上のプロンプト(質問)に、「『東京のおすすめ居酒屋』をテーマとしたWeb記事の構成案を提示して」を入力したとします。すると、具体的な記事構成を提示します。さらに、WEB記事のターゲットとなる読者や店舗のエリアなど、プロンプトで詳細な条件を追加すると、条件を満たした構成案を提案してくれます。

 

WEBサイトやアプリのソースコードを生成する

Geminiは、WEBサイトやアプリケーションを構築するためのコードを作成する際に役立ちます。

 

たとえば、「『https://www.switchitmaker2.com/seo/search-engine-optimization/』で使われているh2のcssを書いて」と入力すると、該当ページ(※URL事例=東京SEOメーカーの記事)で使われるCSSのソースコードが表示されるとともに、解説する文章を添えてくれます。このように、自社サイトに実装したい内容を指定すると、適切なソースコードを取得できます。

 

ドキュメントやメールを要約する

Geminiは、テキストを要約する機能を有しています。そのため、社内のドキュメント資料やツリー上のメールのやりとりを要約した文章を提示してくれます。

 

Geminiは、Google製品にも組み込まれていますので、GoogleドキュメントやGmailのサイドパネルから操作できます。たとえば、指定のドキュメントを開いたうえで、サイドパネルで「ドキュメントの内容を300字程度で要約して」と指示すると、要約文を生成してくれます。

 

会議の議事録を自動作成する

Geminiを利用すると、社内会議や打ち合わせ時の議事録を自動生成できます。

 

2024年6月現在では、Google AI Studioで音声や動画ファイルの文字起こしが可能です。そこで、まずは、会議を録音してmp3形式などの音声データを取得します。その音声データをGoogle AI Studioにアップロードして、プロンプトにて文字起こしするように指示をだします。すると、音声データの文字起こしテキストを生成してくれます。

 

この機能を使うことで、会議の議事録のみならず、Youtubeといった動画ファイルの文字起こしも可能です。ただし、動画ファイルよりも音声ファイルのほうが文字起こしの精度が高い傾向にありますので、一度、音声ファイルに変換してから利用してください。

 

Geminiのよくある質問

Geminiに関する、よくある質問をまとめています。
 

Q:Geminiで画像生成はできますか?

Answer)Gemini Advancedで画像生成できます。ただし、画像データを扱ううえで、さまざまな条件があります。まず、2024年6月現在では、日本語で画像生成の指示を出せません。この件に関しては、開発中とのことで近日対応する予定です。現在では、英語のプロンプトで画像生成が可能となっています。

 

このほか、倫理的な問題から、実物の人物を含む画像ファイルは扱えなくなっています。人物の画像に関しては、画像生成だけでなく、プロンプトにアップロードして「この人物は誰ですか?」といった質問をすることもできません。

 

Q:Geminiで動画や音声ファイルの文字起こしはできますか?

Answer)Geminiで動画や音声ファイルをテキストに文字起こしできます。2024年6月現在では、日本においては、Google AI Studioを利用することで動画や音声ファイルのテキスト化が可能です。

 

Q:Gemini Advancedでは、なにができますか?

Answer)プロンプトで質問や指示をだすことで、適切な回答をえることができます。Geminiは、Google検索エンジン上のWEB情報をもとに回答コンテンツを生成します。そのため、調べ物や相談事を解決するために役立ちます。具体的には、次のようなことを実現します。

 

  • 調べ物に対する回答をえる
  • 数学の問題の解答をえる
  • 自然言語を翻訳する
  • 画像ファイル上のテキストを読み取る
  • WEBページの構成案をえる
  • テキストファイルやWEB記事を要約する
  • WEBサイトやアプリケーションのソースコードをえる

 

Q:iPhoneでGeminiアプリを利用できますか?

Answer)2024年6月現在では、iOS向けのGeminiアプリは配信されていません。iOS端末上でGeminiを利用するためには、次の方法があります。

 

  • Googleアプリをダウンロードする(Gemini機能が搭載されている)
  • Geminiの公式サイトにアクセスする

 

なお、Android向けにGeminiアプリが配信されています。Android端末であれば、下記URLからGeminiアプリをダウンロードできます。

 

ダウンロードURL(外部):Google Play

 

Q:Gemini 1.5 ProとFlashの違いは?

Answer)Gemini 1.5 Flashは、Gemini 1.5 Proの高速軽量モデルとしてリリースされました。そのため、Gemini 1.5 Flashでは、次のような点でGemini 1.5 Proに勝ります。

 

  • API経由でGeminiを利用する際の応答速度
  • トークンあたりの利用料金(10分の1の価格)

 

複雑なプロンプトを処理する能力や応答の正確性など、性能面においては、Gemini 1.5 Proに軍配があがります。

 

Q:GeminiとGemmaとの違いは?

Answer)GeminiとGemmaは、ともに、Google社が開発した大規模言語モデルです。ただし、Geminiは一般利用向け、Gemmaは研究向けに開発されました。こうした違いから、Gemmaは、Geminiと比較すると、全体的な性能が抑えられているものの、オープンソースとして一般公開されています。

 

Q:Gemini、Bard、PaLM 2のそれぞれの関係性を教えてください

Answer)BardやPalM 2は、Geminiの前身となる存在です。

 

もともと、Google社は、AIチャットとしてBardを公開していました。そして、Bardには、大規模言語モデルのPaLM 2が搭載されていました。

 

しかし、2024年2月にGeminiのブランド化を図ろうと、BardをGeminiに名称変更しました。さらに、このAIチャットには、大規模言語モデルのGemini 1.5 Pro(2024年6月現在)が採用されています。

 

 

まとめ

amano_portraitGeminiは、Google社が開発した大規模言語モデル(LLM)です。さらに、ブランディングの観点から、AIチャットのサービス名としても「Gemini」という名称が用いられています。LLMとしてのGeminiは、大規模な処理能力、複雑なプロンプトを読み解く能力、人間の感覚に近い思考能力などが備わっています。WEBのAI業界では、Geminiのほか、GTP、ClaudeなどのLLMが参戦しており、開発を競っています。そのため、近年では、その性能が目まぐるしく向上しています。AI技術は、検索エンジンのように一般生活や仕事のあり方を変えうる存在ですので、今後の動向に注目してください。

 

 

この記事の監修者

SEOコンサルタント

アドマノ株式会社 代表取締役 天野 剛志

日本大学法学部卒業、広告代理店で12年間働いている間、SEOと出会い、SEO草創期からSEO研究を始める。SEOを独学で研究し100以上のサイトで実験と検証を繰り返しました。そのノウハウを元に起業し現在、11期目。営業、SEOコンサル、WEB解析(Googleアナリティクス個人認定資格GAIQ保持)コーディング、サイト制作となんでもこなす。会社としては今まで2000以上のサイトのSEO対策を手掛けてきました。

新着記事

人気記事

WEBマーケティング

SEO対策