【早分かり】大規模言語モデル(LLM)とは?どんな種類があるの?今後の展望は?

当ページのリンクには広告が含まれています。

2023年に入って、OpenAIの「GPT-4」やGoogle「Bard」 、Metaの「LLaMA」 などの大規模言語モデルが巷を賑わしています。

人間と区別がつかないくらい人間らしい文書作成や会話機能が注目されていますが、そもそも大規模言語モデルとは何なのか、何が大規模なのかについては、あまり情報が出回っていません。

そこで、今回は「大規模言語モデル」について解説したいと思います。

目次

大規模言語モデルとは

大規模言語モデルとは、大量のテキストデータを使ってトレーニング(学習)された自然言語処理用の人工知能(AI)のことです。

2022年11月に登場した ChatGPT によって、大規模言語モデル が脚光を浴びました。

2023年4月現在において、亜種を含めて10種類以上の大規模言語モデルが登場しており、MicrosoftやGoogleが検索エンジンに組み込むほか、様々な業種で活用され始めています。

何が大規模なのか?

そもそも何故大規模と呼ぶのでしょう?大規模があるということは小規模言語モデルも存在します。

小規模言語モデルと大規模言語モデルの違いは、学習データの量とニューラルネットワークのパラメータ数の違いです。

大規模と小規模の具体的な境界線はありませんが、小規模言語モデルは数百~数GB程度であるのに対し、OpenAIが開発した GPT-3 では 570GB以上、GPT-4では30TB以上のテキストデータが学習データとして使われています。

また、計算で求めるパラメータ数も1000憶を軽く超えており、学習させるために億単位の費用を投入する必要があります。

更に、出来上がったAI(学習済みモデル)のサイズも数百GBにまで及んでいるため、通常のパソコンに入れてローカルで動作させることが出来ません。

その一方で、アルゴリズムを最適化し、性能を大きく下げずにパラメータ数を削減する手法を取り入れることで、ゲーミングPCもしくはCPUのみで処理可能なモデルも登場しており、大規模言語モデルは今後益々我々の生活に浸透していくことでしょう。

こんなにある大規模言語モデル

2023年に入って、次々と大規模言語モデルが発表されています。

OpenAIはAPI経由での従量課金、Google、マイクロソフトは自社サービスに組み込む形で提供していますが、その一方でMeta社が開発したオープンライセンスの大規模言語モデルを、アメリカの大学がチューニングして発表するなど、今後様々な企業や研究団体が大規模言語モデルを提供していくことになるでしょう。

言語モデル名概要企業名パラメータ数発表年月
GPT-3Generative Pretrained Transformerの略。
Transformerをベースに文書生成向けに
チューニングしたモデル。
OpenAI1750憶2020年5月
OpenFlamingoDeepMind社が開発したモデル「Flamingo」を
ドイツの非営利団体「LAION」がオープンソース化したもの。
LAION不明2021年
NEMO LLMNVIDIAが開発した大規模言語モデル。
GPT-4と同じく文書生成、画像生成、翻訳、
コーディングなどに対応。
NVIDIA不明2021年
LaMDALanguage Model for Dialogue Applicationsの略。
Transformatをベースに会話に特化するよう
チューニングしたモデル。
詳細は「【よく分かる】Google Bardに搭載されるAI「LaMDA」とは?」に記載
Google未公開2021年5月
PaLMScaling Language Modeling with Pathwaysの略。
Transformatをベースにパラメータ数を大幅に拡大
することで性能を向上。
詳細は「Google PaLMはGPT-4を超えられるか?Bardとの違いも解説」に記載
Google5400億2022年4月
ClaudeOpenAIでGPT-2/3 の開発に携わったエンジニア
が創業し、そこで開発したモデル
Anthropic不明2022年
LLaMALarge Language Model Meta AIの略。
GPT-3よりも圧倒的に少ないパラメーター数でGPT-3と同等の性能を発揮する。
軽量であるため単体GPUでの動作が可能。
公開されているデータセットのみで学習しており、オープンソースとして公開されている。
Meta70~650億2023年2月
GPT-4GPT-3にマルチモーダル(画像、音声など
テキスト以外)なデータを学習させたモデル。
OpenAI2000憶以上2023年3月
Alpaca 7BLLaMAをベースにInstruction-following
(自分で学習データを生成)した結果を使って
ファインチューニング
スタンフォード大学70億2023年3月
Vicuna 13BLLaMAをベースにChatGPTとユーザの会話を
学習させたオープンソースのチャットボット。
300ドルのトレーニング費用にも関わらず
ChatGPTに近い(90%)性能を誇る。
カリフォルニア大学不明2023年4月
Stable LMStable Diffusion でおなじみのStable AIが公開した言語モデル。比較的小規模ではあるが、会話やコーディングタスクを得意とする。オープンソースとして公開。Stable AI30憶、70億個2023年4月
rinna小規模ながら日本語に特化したモデル。オープンソースとして公開。その軽さが故にコンシューマ向けゲーミングPCで動作可能。rinna株式会社36憶個2023年5月
LLaMA2LLAMAのVer2.0にあたり、その能力はGPT-3.5に匹敵する。一般用途でも無料で商用利用可能なモデルとして、主にMicrosoft Azureを使って企業向けに提供される。Meta70~700億個2023年7月
japanese-large-lm他のモデルと比較して小規模ではあるが、日本語に特化した大規模言語モデル。オープンソースとして公開。LINE17憶、36億個2023年8月
Weblab-10B日本語と英語に対応したモデル。東京大学松尾研究室がオープンソースとして公開したが、商用利用不可という条件が付いたため、後にオープンソースが取り下げられた。東京大学
松尾研究室
100億個2023年8月
Code LlamaMetaがLLAMA2をベースにプログラム生成に特化させた大規模言語モデル。GitHubでソースが公開されている。Meta70憶、130憶、340憶2023年8月
tsuzumiNTTが独自開発した日本語版大規模言語モデル。企業向けに2024年3月から提供開始予定。軽量版と超軽量版の2種類が提供され、「GPT-3」と比べ、それぞれ300分の1、25分の1にまで軽量化されており、超軽量版はCPUでの高速推論が可能。NTT6億、
70憶
2023年11月
ELYZA東京大学松尾研究室発・AIスタートアップの株式会社ELYZAが開発したコード生成専用大規模言語モデル。
Code Llamaをベースに日本語による追加事前学習が行われている。研究及び商用利用が可能。
株式会社ELYZA70億2023年11月
Japanese Stable LM Beta今年4月に発表されたJapanese Stable LMを更に進化させた日本語特化言語モデル。まだβ版ではあるが、700憶のパラメータを持ち、現時点(2023年12月)で最大級の日本語言語モデルとなっている。Stable-AI700憶2023年11月
Gemini Googleが新しく公開した大規模言語モデル。パラメータ数の違いによりGemini Ultra、Gemini Pro、Gemini Nano の3種類が存在し、Gemini Pro は GPT-3.5に匹敵する性能だと言われている。Google Bardから試せるが、まだ日本語対応はされていない。
Google不明2023年12月

大規模言語モデルで出来ること

OpenAIのCPT-3やGoogleのLaMDAなどの大規模言語モデルは、テキストデータを用いて学習されているため、次のようなテキスト処理が得意です。

タスク説明
機械翻訳一つの言語から別の言語への自然な翻訳を生成します。
要約長い文章を短くまとめます。
質問応答テキストに関する質問に自然な言葉で回答します。
文章生成テーマに応じた長い文章を生成します。
感情分析テキストのトーンや感情を分析します。
言語生成タスク説明文、ニュース記事、小説、詩、広告など様々な種類の文章を生成します。
キーワード抽出テキストから重要なキーワードを抽出します。
単語埋め込み単語を数値ベクトルに変換し、自然言語処理の他のタスクで使用されます。
文章の分類テキスト文書を分類し、それらにラベルを付けます。
文章の言い換えテキストを別の表現に変換することで、同じ意味を保ちながら、より自然な表現を生成します。

最近の傾向として、テキスト以外のデータ(画像、音声など)も学習させた大規模言語モデルも登場しており、OpenAI の GPT-4 や Googleの PaLM は、テキスト処理だけでなく、画像や音声から意味を理解したり、画像を生成できるようになってきました。

タスク説明
画像キャプショニング画像を入力として受け取り、それに対して自然言語でのキャプションを生成します。
言語とビジュアルの質問応答画像やビデオに関する質問に対して自然言語で回答します。
テキストと画像の生成テキストと画像を同時に生成し、それらを一貫したストーリーとしてまとめます。
動画要約動画から重要なシーンを抽出し、自然言語で要約を生成します。
マルチモーダル対話音声、テキスト、およびビジュアル入力を組み合わせて、人間との自然な対話をシミュレートします。
クエリ画像検索テキストクエリに対して、関連する画像を返します。
文書分類テキスト文書を分類し、それらにラベルを付けます。
自然言語推論自然言語で表現された前提条件と仮説を入力として受け取り、仮説が前提条件に従うかどうかを推論します。
テキスト言い換えテキストを別の表現に変換することで、同じ意味を保ちながら、より自然な表現を生成します。
文章生成テーマに応じた長い文章を生成します。

大規模言語モデルの学習方法

大規模言語モデルは、次の手順で学習されるのが一般的です。

説明
1. データ収集インターネット上や書籍、論文などから膨大な量のデータを収集する。
2. 前処理収集したデータに含まれる不要な情報(HTMLタグ、文法誤りなど)を削除し、
形式を整える。
3. トークン化テキストを単語などのトークン分割(単語や句などの単位で分割)する。
4. モデル構築アーキティクチャ(Transformerなど)を選定し、これをベースに手を加える。
5. 学習データを使ってモデルを学習(テキストを入力とし、次に来る単語などの予測を出力するなど)
させる。この時、膨大な計算によってパラメータ(GPT-3の場合1750憶個)の値が調整される。
6. 評価モデルの予測結果と実際の結果を比較し、精度を算出することで精度を評価する。
7.微調整
(Fine-tuning)
利用したい分野に適用するための学習データを用意し、事前学習済みモデルに再学習させる。

この手順の中で、最も難しく時間が掛かるのが「1.データ収集」であり、費用が掛かるのが「5.学習」です

「データ収集」は高品質なデータを大量に収集しなければならないこと、「学習」は大量のデータに対して数千億単位のパラメータ調整が必要なため、膨大な計算リソースを投入しなければなりません。

この2点については、最近様々なアプローチが行われており、改善されつつあります。

大規模言語モデルの課題

データの偏りやバイアス

学習には膨大なデータが必要ですが、それらは同時に高品質でなければなりません。

仮に、学習データの中にデータの偏りやバイアスが存在する場合、それがモデルに反映される可能性があります。

例えば、ある種の人種やジェンダーに関する言葉が、一定の文脈で使われた場合に差別的であるというバイアスが存在する場合、そのような言葉が使われた場合に、倫理的に不適切な回答を返してしまうかもしれません。

対策としては、できるだけ幅広い属性(性別、年齢、人種、宗教など)のデータを収集する、公的な機関から有料でデータを入手する、人が精査したデータのみで学習させる、他の大規模言語モデルが生成したデータを利用する、などがあります。

情報の誤解釈や誤った回答

大規模言語モデルは、大量のデータを学習しているため、人間が意図しない誤解釈をしてしまう可能性があります。また、学習データに含まれていない情報や、誤った情報に基づいて回答を返してしまうことも考えられます。

対策としては、今のところ人手によるチェックが一番有効ですが、精度の高い他の大規模言語モデルを使って自動化を図るという手段も行われています。

プライバシーや機密情報漏洩の問題

学習データで大規模言語モデルに対して更なる精度向上を果たすために、実際の利用者とのやり取りを学習データとして活用する手法がよく用いられます。

この時、利用者とのやり取りの中に個人情報や機密情報が含まれていた場合、大規模言語モデルはこの内容も学習してしまいます。

このため、プライバシーや機密情報が外部に漏洩される危険性が否めません。

対策としては、利用者に対してプライバシーや機密情報を入力しないように注意喚起する、あるいは利用者とのやりとりは学習データとして使わないなどがあります。

例えば、MicrosoftのBingAIでは、そもそも学習データとして使わないという方針を立てていますし、Open AIについてもAPI経由でやり取りするデータは学習データとして使わないという方針を表明しています。

膨大な計算コスト

大規模言語モデルは、学習に使用するために膨大な計算が必要であり、大量のエネルギーを消費します。このため、学習に掛かる費用が膨大(億単位)になるほか、大量のCO2排出につながることも指摘されています。

対策としては、学習済みモデルに特定分野のデータを追加学習させて微調整(ファインチューニング)する方法や、学習済みモデルを模倣する「蒸留」という手法を使うことで、学習データと計算量を大幅に減らすことに成功しています。

蒸留:既存のモデルの入力と出力を学習させて新しいモデルを構築すること

大規模言語モデルの今後

2021年に最先端の大規模言語モデルとして、OpenAIのGPT-3が発表されましたが、その登場からわずか数か月後に、それを上回る大規模なモデルが次々と登場しています。

今では高度な自然言語処理だけに限らず、より複雑化したマルチモーダル(画像や音声など)な処理が可能になりました。

一方、「蒸留」という手法を用いて、より高速な学習や、より小さなデータセットで高い性能を発揮させるアプローチも始まっています。

これらを踏まえて、今後は次のようになると予測しています。

  • OpenAI、Google、Microsoftが自社の大規模言語モデルをブラッシュアップさせ、自社製品に組み込んでシェア争いを繰り広げる
  • Meta社の大規模言語モデルを独自に改良した新しいモデルが、あちこちからいくつも登場
  • 既存の大規模言語モデルを利用した様々なサービスが登場

おそらく2023年中に、大規模言語モデルを用いたサービスが様々な業種や我々の生活に浸透し、革命を起こしていくことになると思われます。

まとめ

今回は大規模言語モデルについて解説しました。

大規模言語モデルは、テキスト以外の情報を含めたマルチモーダルなデータ(画像、音声など)の扱いも可能となってきたため、自然言語処理に限らず、ビジネスや教育、医療、エンターテインメントなど幅広い分野での活用が期待されています。

しかし、大規模言語モデルの利用には課題も存在します。高品質かつ大量のデータを用意する必要があること、モデルの学習には膨大な計算資源が必要なことから億単位のコストを投入しなければなりません。

また、プライバシーや機密情報の漏洩、倫理的問題など、ほかにも解決すべき問題があります。

しかし、その課題は着実に解消されようとしており、今後更に大規模かつ高品質な大規模言語モデルが登場し、我々の生活を根本から変えていくことになるでしょう。

シンギュラリティの始まりを感じざるを得ません。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次