2023年に入って、OpenAIの「GPT-4」やGoogle「Bard」 、Metaの「LLaMA」 などの大規模言語モデルが巷を賑わしています。
人間と区別がつかないくらい人間らしい文書作成や会話機能が注目されていますが、そもそも大規模言語モデルとは何なのか、何が大規模なのかについては、あまり情報が出回っていません。
そこで、今回は「大規模言語モデル」について解説したいと思います。
大規模言語モデルとは

大規模言語モデルとは、大量のテキストデータを使ってトレーニング(学習)された自然言語処理用の人工知能(AI)のことです。
2022年11月に登場した ChatGPT によって、大規模言語モデル が脚光を浴びました。
2023年4月現在において、亜種を含めて10種類以上の大規模言語モデルが登場しており、MicrosoftやGoogleが検索エンジンに組み込むほか、様々な業種で活用され始めています。
何が大規模なのか?
そもそも何故大規模と呼ぶのでしょう?大規模があるということは小規模言語モデルも存在します。
小規模言語モデルと大規模言語モデルの違いは、学習データの量とニューラルネットワークのパラメータ数の違いです。
大規模と小規模の具体的な境界線はありませんが、小規模言語モデルは数百~数GB程度であるのに対し、OpenAIが開発した GPT-3 では 570GB以上、GPT-4では30TB以上のテキストデータが学習データとして使われています。
また、計算で求めるパラメータ数も1000憶を軽く超えており、学習させるために億単位の費用を投入する必要があります。
更に、出来上がったAI(学習済みモデル)のサイズも数百GBにまで及んでいるため、通常のパソコンに入れてローカルで動作させることが出来ません。
こんなにある大規模言語モデル

2023年に入って、次々と大規模言語モデルが発表されています。
OpenAIはAPI経由での従量課金、Google、マイクロソフトは自社サービスに組み込む形で提供していますが、その一方でMeta社が開発したオープンライセンスの大規模言語モデルを、アメリカの大学がチューニングして発表するなど、今後様々な企業や研究団体が大規模言語モデルを提供していくことになるでしょう。
言語モデル名 | 概要 | 企業名 | パラメータ数 | 発表年月 |
---|---|---|---|---|
GPT-3 | Generative Pretrained Transformerの略。 Transformerをベースに文書生成向けに チューニングしたモデル。 | OpenAI | 1750憶 | 2020年5月 |
GPT-4 | GPT-3にマルチモーダル(画像、音声など テキスト以外)なデータを学習させたモデル。 | OpenAI | 2000憶以上 | 2023年3月 |
LaMDA | Language Model for Dialogue Applicationsの略。 Transformatをベースに会話に特化するよう チューニングしたモデル。 詳細は「【よく分かる】Google Bardに搭載されるAI「LaMDA」とは?」に記載 | 未公開 | 2021年5月 | |
PaLM | Scaling Language Modeling with Pathwaysの略。 Transformatをベースにパラメータ数を大幅に拡大 することで性能を向上。 詳細は「Google PaLMはGPT-4を超えられるか?Bardとの違いも解説」に記載 | 5400億 | 2022年4月 | |
Claude | OpenAIでGPT-2/3 の開発に携わったエンジニア が創業し、そこで開発したモデル | Anthropic | 不明 | 2022年 |
NEMO LLM | NVIDIAが開発した大規模言語モデル。 GPT-4と同じく文書生成、画像生成、翻訳、 コーディングなどに対応。 | NVIDIA | 不明 | 2021年 |
LLaMA | Large Language Model Meta AIの略。 GPT-3よりも圧倒的に少ないパラメーター数でGPT-3と同等の性能を発揮する。 軽量であるため単体GPUでの動作が可能。 公開されているデータセットのみで学習しており、 オープンソースとして公開されている。 | Meta | 70~650億 | 2023年 2月 |
Alpaca 7B | LLaMAをベースにInstruction-following (自分で学習データを生成)した結果を使って ファインチューニング | スタンフォード大学 | 70億 | 2023年3月 |
Vicuna 13B | LLaMAをベースにChatGPTとユーザの会話を 学習させたオープンソースのチャットボット。 300ドルのトレーニング費用にも関わらず ChatGPTに近い(90%)性能を誇る。 | カリフォルニア大学 | 不明 | 2023年4月 |
OpenFlamingo | DeepMind社が開発したモデル「Flamingo」を ドイツの非営利団体「LAION」がオープンソース化 したもの。 | LAION | 不明 | 2021年 |
大規模言語モデルで出来ること
OpenAIのCPT-3やGoogleのLaMDAなどの大規模言語モデルは、テキストデータを用いて学習されているため、次のようなテキスト処理が得意です。
タスク | 説明 |
---|---|
機械翻訳 | 一つの言語から別の言語への自然な翻訳を生成します。 |
要約 | 長い文章を短くまとめます。 |
質問応答 | テキストに関する質問に自然な言葉で回答します。 |
文章生成 | テーマに応じた長い文章を生成します。 |
感情分析 | テキストのトーンや感情を分析します。 |
言語生成タスク | 説明文、ニュース記事、小説、詩、広告など様々な種類の文章を生成します。 |
キーワード抽出 | テキストから重要なキーワードを抽出します。 |
単語埋め込み | 単語を数値ベクトルに変換し、自然言語処理の他のタスクで使用されます。 |
文章の分類 | テキスト文書を分類し、それらにラベルを付けます。 |
文章の言い換え | テキストを別の表現に変換することで、同じ意味を保ちながら、より自然な表現を生成します。 |
最近の傾向として、テキスト以外のデータ(画像、音声など)も学習させた大規模言語モデルも登場しており、OpenAI の GPT-4 や Googleの PaLM は、テキスト処理だけでなく、画像や音声から意味を理解したり、画像を生成できるようになってきました。
タスク | 説明 |
---|---|
画像キャプショニング | 画像を入力として受け取り、それに対して自然言語でのキャプションを生成します。 |
言語とビジュアルの質問応答 | 画像やビデオに関する質問に対して自然言語で回答します。 |
テキストと画像の生成 | テキストと画像を同時に生成し、それらを一貫したストーリーとしてまとめます。 |
動画要約 | 動画から重要なシーンを抽出し、自然言語で要約を生成します。 |
マルチモーダル対話 | 音声、テキスト、およびビジュアル入力を組み合わせて、人間との自然な対話をシミュレートします。 |
クエリ画像検索 | テキストクエリに対して、関連する画像を返します。 |
文書分類 | テキスト文書を分類し、それらにラベルを付けます。 |
自然言語推論 | 自然言語で表現された前提条件と仮説を入力として受け取り、仮説が前提条件に従うかどうかを推論します。 |
テキスト言い換え | テキストを別の表現に変換することで、同じ意味を保ちながら、より自然な表現を生成します。 |
文章生成 | テーマに応じた長い文章を生成します。 |
大規模言語モデルの学習方法

大規模言語モデルは、次の手順で学習されるのが一般的です。

| 説明 |
---|---|
1. データ収集 | インターネット上や書籍、論文などから膨大な量のデータを収集する。 |
2. 前処理 | 収集したデータに含まれる不要な情報(HTMLタグ、文法誤りなど)を削除し、 形式を整える。 |
3. トークン化 | テキストを単語などのトークン分割(単語や句などの単位で分割)する。 |
4. モデル構築 | アーキティクチャ(Transformerなど)を選定し、これをベースに手を加える。 |
5. 学習 | データを使ってモデルを学習(テキストを入力とし、次に来る単語などの予測を出力するなど) させる。この時、膨大な計算によってパラメータ(GPT-3の場合1750憶個)の値が調整される。 |
6. 評価 | モデルの予測結果と実際の結果を比較し、精度を算出することで精度を評価する。 |
7.微調整 (Fine-tuning) | 利用したい分野に適用するための学習データを用意し、事前学習済みモデルに再学習させる。 |
この手順の中で、最も難しく時間が掛かるのが「1.データ収集」であり、費用が掛かるのが「5.学習」です。
「データ収集」は高品質なデータを大量に収集しなければならないこと、「学習」は大量のデータに対して数千億単位のパラメータ調整が必要なため、膨大な計算リソースを投入しなければなりません。
この2点については、最近様々なアプローチが行われており、改善されつつあります。
大規模言語モデルの課題

データの偏りやバイアス
学習には膨大なデータが必要ですが、それらは同時に高品質でなければなりません。
仮に、学習データの中にデータの偏りやバイアスが存在する場合、それがモデルに反映される可能性があります。
例えば、ある種の人種やジェンダーに関する言葉が、一定の文脈で使われた場合に差別的であるというバイアスが存在する場合、そのような言葉が使われた場合に、倫理的に不適切な回答を返してしまうかもしれません。
対策としては、できるだけ幅広い属性(性別、年齢、人種、宗教など)のデータを収集する、公的な機関から有料でデータを入手する、人が精査したデータのみで学習させる、他の大規模言語モデルが生成したデータを利用する、などがあります。
情報の誤解釈や誤った回答
大規模言語モデルは、大量のデータを学習しているため、人間が意図しない誤解釈をしてしまう可能性があります。また、学習データに含まれていない情報や、誤った情報に基づいて回答を返してしまうことも考えられます。
対策としては、今のところ人手によるチェックが一番有効ですが、精度の高い他の大規模言語モデルを使って自動化を図るという手段も行われています。
プライバシーや機密情報漏洩の問題
学習データで大規模言語モデルに対して更なる精度向上を果たすために、実際の利用者とのやり取りを学習データとして活用する手法がよく用いられます。
この時、利用者とのやり取りの中に個人情報や機密情報が含まれていた場合、大規模言語モデルはこの内容も学習してしまいます。
このため、プライバシーや機密情報が外部に漏洩される危険性が否めません。
対策としては、利用者に対してプライバシーや機密情報を入力しないように注意喚起する、あるいは利用者とのやりとりは学習データとして使わないなどがあります。
例えば、MicrosoftのBingAIでは、そもそも学習データとして使わないという方針を立てていますし、Open AIについてもAPI経由でやり取りするデータは学習データとして使わないという方針を表明しています。
膨大な計算コスト
大規模言語モデルは、学習に使用するために膨大な計算が必要であり、大量のエネルギーを消費します。このため、学習に掛かる費用が膨大(億単位)になるほか、大量のCO2排出につながることも指摘されています。
対策としては、学習済みモデルに特定分野のデータを追加学習させて微調整(ファインチューニング)する方法や、学習済みモデルを模倣する「蒸留」という手法を使うことで、学習データと計算量を大幅に減らすことに成功しています。

蒸留:既存のモデルの入力と出力を学習させて新しいモデルを構築すること
大規模言語モデルの今後

2021年に最先端の大規模言語モデルとして、OpenAIのGPT-3が発表されましたが、その登場からわずか数か月後に、それを上回る大規模なモデルが次々と登場しています。
今では高度な自然言語処理だけに限らず、より複雑化したマルチモーダル(画像や音声など)な処理が可能になりました。
一方、「蒸留」という手法を用いて、より高速な学習や、より小さなデータセットで高い性能を発揮させるアプローチも始まっています。
これらを踏まえて、今後は次のようになると予測しています。
- OpenAI、Google、Microsoftが自社の大規模言語モデルをブラッシュアップさせ、自社製品に組み込んでシェア争いを繰り広げる
- Meta社の大規模言語モデルを独自に改良した新しいモデルが、あちこちからいくつも登場
- 既存の大規模言語モデルを利用した様々なサービスが登場
おそらく2023年中に、大規模言語モデルを用いたサービスが様々な業種や我々の生活に浸透し、革命を起こしていくことになると思われます。
まとめ
今回は大規模言語モデルについて解説しました。
大規模言語モデルは、テキスト以外の情報を含めたマルチモーダルなデータ(画像、音声など)の扱いも可能となってきたため、自然言語処理に限らず、ビジネスや教育、医療、エンターテインメントなど幅広い分野での活用が期待されています。
しかし、大規模言語モデルの利用には課題も存在します。高品質かつ大量のデータを用意する必要があること、モデルの学習には膨大な計算資源が必要なことから億単位のコストを投入しなければなりません。
また、プライバシーや機密情報の漏洩、倫理的問題など、ほかにも解決すべき問題があります。
しかし、その課題は着実に解消されようとしており、今後更に大規模かつ高品質な大規模言語モデルが登場し、我々の生活を根本から変えていくことになるでしょう。
シンギュラリティの始まりを感じざるを得ません。