クーポン配布 問い合わせ お知らせ ブログ ログイン
🎁 無料動画視聴はこちら
マイページへ

Grok-3の発表全容解明(文字起こしつき)

公開日: 2025-02-18 22:07:33

   

カテゴリ: AI

222 PV
Grok-3の発表全容解明(文字起こしつき)

XAIの最新AI「Grok-3」発表!知能、創造性、そして宇宙の謎に迫る

イーロン・マスク氏率いるXAIが、最新のAIモデル「Grok-3」を発表しました。今回の発表は、AIの進化が新たな段階に入ったことを示す、非常にエキサイティングな内容となりました。この記事では、Grok-3の驚くべき能力とその可能性について、5つのポイントに絞ってご紹介します。

1. 桁違いの知能:ベンチマークで他を圧倒

Grok-3は、その前身であるGrok-2から飛躍的に知能が向上しました。数学、科学、コーディングなど、様々な分野のベンチマークテストで、他の最先端AIモデルを凌駕する結果を叩き出しています。

特に注目すべきは、人間によるブラインドテストでも圧倒的な評価を得ている点です。これは、Grok-3が単に知識を記憶しているだけでなく、人間のように思考し、問題を解決する能力を持っていることを示唆しています。

2. 高度な推論能力:「考えるAI」が現実のものに

Grok-3は、与えられた問題に対して、複数のステップを踏んで論理的に思考する「推論能力」を備えています。これは、従来のAIモデルにはない画期的な特徴です。

発表会では、Grok-3が地球から火星への宇宙船の軌道を計算したり、テトリスとBejeweledを組み合わせた新しいゲームをその場で作成したりするデモが行われました。これらのデモは、Grok-3が単なる計算機ではなく、創造性さえも持ち始めていることを示しています。

3. 「Deep Search」:次世代の検索エンジン

Grok-3のもう一つの注目機能は、「Deep Search」です。これは、従来の検索エンジンのようにキーワードに一致する情報を提示するだけでなく、ユーザーの質問の意図を深く理解し、複数の情報源を検証して、最も適切な答えを提供する次世代の検索エンジンです。

Deep Searchは、単なる情報検索ツールではなく、あなたの知的なパートナーとして、様々な疑問を解決し、新たな発見をもたらしてくれるでしょう。

4. 驚異的な開発スピード:100K GPUクラスターを数ヶ月で構築

Grok-3の驚異的な能力を支えているのが、XAIが独自に構築した大規模なGPUクラスターです。彼らは、当初の計画を大幅に短縮し、わずか数ヶ月で10万個のGPUを接続したクラスターを構築しました。

この驚異的な開発スピードは、XAIの技術力と、AI開発にかける情熱の証と言えるでしょう。

5. 今後の展望:会話型AI、そして宇宙へ

Grok-3は、現在、Xのプレミアムプラス加入者向けに公開されており、近日中に音声対話機能も追加される予定です。また、Grok-3のAPIも公開される予定で、企業や開発者による様々な応用が期待されます。

さらに、イーロン・マスク氏は、将来的にGrokを宇宙船に搭載する構想も明らかにしています。Grok-3は、私たちの生活を変えるだけでなく、人類の宇宙進出にも貢献する可能性を秘めているのです。


Grok-3の発表は、AIの進化が新たな段階に入ったことを示す、非常にエキサイティングな出来事でした。今後のGrok-3の進化、そしてXAIの挑戦から目が離せません。

<日本語和訳> はい、Grok-3のプレゼンテーションへようこそ。XAIとGrokの使命は、宇宙を理解することです。私たちは宇宙の本質を理解し、何が起こっているのか、エイリアンはどこにいるのか、人生の意味とは何か、宇宙はどのように終わるのか、どのように始まるのかといった、あらゆる根本的な疑問を解き明かしたいのです。私たちは宇宙の本質に対する好奇心に突き動かされており、それがまた、たとえその真実が時に政治的に正しいことと相容れないものであっても、最大限に真実を追求するAIであろうとする理由でもあります。宇宙の本質を理解するためには、絶対に厳密に真実を追求しなければなりません。さもなければ、宇宙を理解することはできず、ある程度の妄想や誤りに苦しむことになります。それが私たちの目標です。何が起こっているのかを把握し、非常に短い期間でGrok-2よりも桁違いに能力が向上したと思われるGrok-3を発表できることを非常に嬉しく思っています。これは、素晴らしいチームのたゆまぬ努力のおかげであり、このような素晴らしいチームと協力できることを光栄に思っています。そしてもちろん、最も優秀な人材に私たちのチームに加わっていただきたいと思っています。それでは、始めましょう。

皆さん、こんにちは。私の名前はイゴールです。XAIのリードエンジニアです。私は[名前]、研究のリーダーです。私はトニー、推論チームで働いています。

はい。私は何もしていないことがわかりますね。時々顔を出すだけです。ご存知のように、Grokは私たちが取り組んでいるツールです。Grokは私たちがXAIで構築しているAIであり、皆さんに提供できるよう、皆さんにアクセスしていただけるよう、ここ数ヶ月間、Grokをできる限り改善するために非常に熱心に取り組んできました。Grokは非常に役に立つはずです。Grokと話すのは面白いし、本当に面白いと思います。そして、ここ数ヶ月でGrokをどのように改善してきたのかを説明します。私たちは能力においてかなりの飛躍を遂げました。そうですね、なぜGrokと呼ぶのかも説明すべきかもしれませんね。Grokはハインラインの小説「異星の客」に出てくる言葉です。そして、火星で育った男が使っています。Grokという言葉は、何かを完全に、そして深く理解することを意味します。それがGrokという言葉の意味です。完全に、そして深く理解すること。そして、共感が重要です。その通り。

ええと、ええと、もしXAIのここ数ヶ月の進捗状況をグラフにしたら、最初のモデルに着手してからわずか17ヶ月です。Grok 1は、今となってはおもちゃのようなもので、わずか330億のパラメータしかありませんでした。そして今、もしX軸に時間、Y軸にお気に入りのベンチマークであるMMLUのパフォーマンスをプロットすると、私たちは文字通り、分野全体にわたって前例のないスピードで進歩しています。そして、Grok 1の直後にGrok 1.5に着手し、2023年11月以降にリリースし、その後Grok 2をリリースしました。もしすべてのパフォーマンスがどこから来ているのかを見れば、非常に優れたエンジニアリングチームと最高のAI人材がいる場所で、私たちに必要な唯一のものは、大きなインテリジェンスが大きなクラスターから生まれることです。ですから、XAI全体の進捗状況を、Y軸のベンチマークをトレーニングの総計算量、つまり大規模言語モデルをトレーニングするために、いつでも実行できるGPUの数に置き換えることで、インターネット全体を圧縮することができます。

Grok 2の後は... そうですね、実際にはすべての人間の知識です。その通りです。ええ、インターネットはその一部ですが、実際にはすべての人間の知識、すべてのものです。

そうですね、現時点ですべてのインターネットはUSBスティックに収まります。それはすべての人間のトークンみたいなものです、ええ。その通りです。ええ。すぐに現実世界で。Grok 2のトレーニングは非常に困難でした。2月頃にモデルを立ち上げたのですが、十分なチップがあると思っていましたが、実際には、同時に一貫して動作させることができるトレーニングチップは8K程度でした。データセンターには冷却と電力の問題がたくさんありました。

ええ、それは本当に、平均して8Kのチップが80%の効率で動作し、数ヶ月間トレーニングされる有効なA100が6500個程度でした。しかし、今は100Kです。ええ、その通りです。100K以上です。その通りです。それで、次のステップは何ですか?Grok 2の後、加速を続けるためには、自分たちで事態を収拾する必要があります。すべての冷却、すべての電力問題、その他すべてを解決する必要があります。そこで、昨年の4月にイーロンは、XAIが成功し、最高のAIを構築するための唯一の方法は、自分たちのデータセンターを建設することだと決断しました。Grok 3をできるだけ早く皆さんにお届けしたかったので、あまり時間がありませんでした。そこで、データセンターを約4ヶ月で建設する必要があることに気づきました。その結果、最初の100KのGPUを立ち上げて稼働させるのに122日かかりました。そして、それを実現するために多大な努力が払われました。そして、私たちはそれがこの種のものとしては最大かつ完全に接続されたH100クラスターだと信じています。そして、私たちはそこで立ち止まりませんでした。私たちは、私たちが構築したいAIの種類を構築したいのであれば、ほぼすぐにクラスターのサイズを2倍にする必要があると判断しました。そこで、私たちは別のフェーズに入りました。これは、これまで公にはまったく話していません。ですから、これは私たちがこれについて話すのは初めてです。そこで、データセンターの容量をさらに2倍にしました。そして、それにかかったのはわずか92日でした。そのため、私たちはこれらのGPUすべて、このコンピューティング能力すべてを使用してGrokを改善することができました。その間、そして基本的に今日、私たちはその結果、そこから生まれた果実を発表しようとしています。ということです。

ええ、すべての道はGrok 3に通じています。10倍以上の計算能力、実際には10倍以上です。ええ、実際には、おそらく15倍です。ええ。前の世代のモデルと比較して。そして、Grok 3は1月上旬に事前トレーニングを終えました。そして、モデルは現在もトレーニング中です。これはベンチマークの数値のプレビューです。Grok 3は、一般的な数学的推論、STEMと科学に関する一般的な知識、そしてコンピューターサイエンスのコーディングという3つの異なるカテゴリで評価しました。AIME、アメリカ招待数学試験は、年に一度開催されます。そして、モデルのパフォーマンスを評価すると、Grok 3は全体的に独自のリーグにいることがわかります。小さな弟であるGrok 3 Miniでさえ、他のすべての競合他社を凌駕しています。それでは、現時点ですべてのベンチマークは、教科書の暗記、GitHubリポジトリの暗記を評価しているだけだとおっしゃるでしょう。リアルタイムの有用性はどうでしょうか?実際にこれらのモデルを製品で使用するのはどうでしょうか?そこで、代わりに、Chocolateという名前のGrok 3モデルのブラインドテストを開始しました。

かなり難しい。ええ、難しいチョコレートです。そして、ご存知のように、Chatbot Arenaというプラットフォームで2週間実行されています。Xプラットフォーム全体が、これは次世代のAIかもしれないと推測していたと思います。このChatbot Arenaの仕組みは、製品サービス全体が取り除かれているということです。APIのエンジン、言語モデル自体を完全に比較し、ユーザーが1つのクエリを送信すると、2つの応答が表示されるインターフェイスに[それらを配置します]。どのモデルから来たのかはわからず、実際には投票を行います。このブラインドテストでは、Grok 3の初期バージョンはすでに1400に達していました。他のモデルは、このスコアですべてのモデルと一対一で比較できるELOスコアに達していませんでした。そして、それは単一のカテゴリではなく、Chatbotのすべてのカテゴリにわたって集計された1400です:機能、指示への従順、コーディング。したがって、このブラインドテストでは、全体的にナンバーワンです。そして、それはまだ上昇しているので、私たちは実際にそれを更新し続けています。

それで、それは1400、1400、約1400で上昇しています。ええ。そして実際、私たちがテストしたモデルよりもはるかに優れていると思われるモデルのバージョンがあります。ええ。見てみましょう。いいえ。私は解雇されますが、それが私たちが取り組んでいるものです。今日私たちが話していること。

ええ、実際、Grok 3を使用している場合は、モデルを継続的に改善しているため、ほぼ毎日改善に気付く可能性があると思います。 文字通り、24時間以内でも改善が見られます。ええ。しかし、私たちはXAIでは、最高の事前トレーニングモデルを取得するだけでは十分ではないと信じています。最高のAIを構築するには十分ではありません。そして、最高のAIは、人間のように考える必要があります。可能なすべての解決策を熟考し、自己批判し、すべての解決策を検証し、後戻りし、また第一原理から考える必要があります。それは非常に重要な機能です。ですから、最高の事前トレーニングモデルを取得し、強化学習でトレーニングを続けると、モデルがはるかに優れてトレーニング時間だけでなく、テスト時間でも拡張できるようになる追加の推論機能が加わると信じています。このモデルは、すでに社内のエンジニアリングに非常に役立ち、何時間もの時間を節約し、何百時間ものコーディング時間を節約しています。ですからイゴール、あなたは私たちのGrok 3.0モデルのパワーユーザーです。他にどのようなユースケースがありますか?

ええと、ジミーが言ったように、私たちは高度な推論機能をGrokに追加し、ここ数週間でそれをかなり集中的にテストしてきました。そして、Grokが難しい推論問題を解決しているときにそれがどのように見えるのかを少しだけお見せしようと思います。私たちはあなたのために2つの小さな問題を用意しました。1つは物理学から来ており、もう1つはGrokが私たちのために書くゲームです。物理学の問題に関しては、Grokに何をさせたいのかというと、地球から火星への移動、そして後の時点で火星から地球への移動をプロットすることです。そして、それにはGrokが理解しなければならないいくつかの物理学が必要です。ですから、Grokに、実行可能な軌道を計算して考案し、それをプロットして見ることができるように挑戦します。そして、ええ、これは完全に台本なしです。これがプロンプトの全体であり、それ以上のものはないことを明確にする必要があります。ええ、その通りです。これがGrokのインターフェイスであり、ここに表示されているテキストを入力しました。「地球からの打ち上げ、火星への着陸、そして次の打ち上げウィンドウで地球への帰還のアニメーション3Dプロットのコードを生成します。」そして、今クエリを開始しましたが、Grokが考えているのがわかります。ですから、Grokの高度な推論機能の一部は、ここに表示されている思考の痕跡です。中に入って、Grokが問題を解決しようとしているときに、Grokが考えていることを実際に読むことさえできます。

ええ、私たちはモデルが完全に即座にコピーされないように、思考をいくらか隠していると言っています。表示されているよりも多くの思考があります。そして、これは完全に台本なしであるため、Grokが少しコーディングミスを犯し、実際にはうまくいかない可能性があります。そのため、念のため、このインスタンスをさらに2つ起動するか、何か問題が発生した場合は、それらに切り替えて、見栄えの良いものをお見せできるようにします。ですから、他の[2つ]も起動しています。そして、私が言ったように、私たちには2番目の問題もあります。そして、ええ、実際、X[AI]での好きなアクティビティの1つは、Grokにゲームを書かせることです。そして、単なる古いゲームではなく、すでに慣れ親しんでいる可能性のあるゲームではなく、その場で新しいゲームを作成し、それについて創造的であることです。私たちが本当に楽しいと思った1つの例は、テトリスとBejeweledの2つのゲームの混合物であるゲームを作成することです。

ですから、これはおそらく重要なことです。明らかに、AIにテトリスのようなゲームを作成するように依頼した場合、インターネット上にはテトリスやBejeweledなどのゲームの例がたくさんあり、それをコピーできます。ここで興味深いのは、それが実際に機能し、良いゲームである2つのゲームを組み合わせた創造的なソリューションを実現したことです。ええ。私たちは創造性の始まりを見ています。ええ。うまくいくことを祈っています。うまくいけばうまくいきます。実際、これはもう少し難しいので、ここではビッグブレインと呼ばれる特別なものを使用するつもりです。それは、私たちがより多くの計算を使用するモードです。Grokがより多くの推論を使用し、それが実際にそれを行う可能性が高まるようにするためです。ですから、私たちはここで、このゲームを解決するために3つの試みを開始するつもりです。テトリスとBejeweledの混合物であるこのゲームを作成することです。ええ。Grokが思いつくものを見てみましょう。私はゲームをプレイしました。それはかなり良いです。まるで、うわー。わかりました。これはオープンです。ええ。ですから、Grokがバックグラウンドで考えている間、私たちは今、いくつかの具体的な数値について話すことができます。私たちがテストしてきたさまざまなタスクで、Grokはどれだけうまくやっているのでしょうか?ですから、それについて話すためにトニーに渡します。

ええ。わかりました。それでは、Grokがこれらの興味深い挑戦的なベンチマークでどのように実行されるかを見てみましょう。ええ。ですから、推論とは、再び、問題を解決しようとする前に実際に[かなり]長い間考えるモデルを指します。ですから、この場合、約[1]ヶ月前に、Grok 3の事前トレーニングが終了しました。その後、私たちは現在のGrok 3モデルに推論機能を追加するために非常に努力してきました。しかし、繰り返しますが、これは非常に初期の段階です。ですから、モデルは現在もトレーニング中です。ですから、今、人々に見せようとしているのは、Grok 3推論モデルのこのベータ版です。それと並行して、私たちは推論モデルのミニバージョンもトレーニングしています。ですから、基本的に、このプロットでは、Grok 3推論ベータとGrok 3ミニ推論を見ることができます。Grok 3推論、ミニ推論は、実際には[はるかに]長い時間トレーニングするモデルです。そして、Grok 3推論と比較して、実際にはわずかに優れたパフォーマンスを発揮することがあります。これはまた、Grok 3推論には大きな可能性があることを意味します。なぜなら、トレーニング時間がはるかに短いからです。それで、わかりました。それでは、実際にそれらの3つのベンチマークでどのように実行されるかを見てみましょう。ジミーも[それらを]すでに紹介しました。ですから、基本的に、私たちは数学、科学、コーディングの3つの異なる分野を見ています。そして、数学では、この高校の競技数学の問題を選択しています。科学では、実際に博士レベルの科学の質問を選択しました。そして、コーディングでは、実際にはかなり難しいです。それは競争的なコーディングであり、また、人々が通常企業の面接で受ける[企業]の面接からのいくつかのLeetCodeです。これらのベンチマークでは、Grok 3は、他の競合他社と比較して、実際には全体的に非常に優れたパフォーマンスを発揮することがわかります。

ええ、ですから、それは非常に有望です。これらのモデルは非常にスマートです。それでトニー、それらの網掛けされたバーは何ですか?ええ、わかりました。それで、あなたはこの質問をします。これらのモデルは、推論できるので、考えることができるからです。また、それらにもっと長く考えるように依頼することもできます。それは、私たちがテストと計算と呼ぶものをより多く費やすことができます。それは、答えを吐き出す前に、問題を推論し、考えるためにもっと時間を費やすことができることを意味します。ですから、この場合、ここに表示されている網掛けされたバーは、モデルにもっと時間を費やすように依頼しただけであることを意味します。正しい解決策とは何かを結論付けようとする前に、同じ問題を何度も何度も解決できます。そして、この計算能力またはこの種の予算をモデルに与えると、モデルはさらに優れたパフォーマンスを発揮することがわかります。ですから、これは本質的にそれらのバーの網掛けされたバーです。

ですから、これは本当にエキサイティングだと思いますよね?AIで1つの思考の連鎖を行う代わりに、複数の思考の連鎖を行ってみませんか?まさにその通りです。ええ。ですから、それはトレーニング後もモデルの機能を継続的に拡張できる非常に強力なテクニックです。そして、人々はしばしば、私たちは実際にベンチマークに過剰適合しているだけなのでしょうかと尋ねます。ええ。それで、あなたの組織はどうですか?ええ、そうです。私は、ええ、これは間違いなく私たちが自問している質問であり、私たちがそれらの現在のベンチマークに過剰適合しているかどうかです。幸運なことに、私たちは実際のテストを行っています。ですから、約5日前、AIME 2024が終了しました。ここでは、高校生がこの特定のベンチマークで競い合います。ですから、私たちはこの非常に新鮮な新しい競技会を手に入れました。そして、私たちは2つのモデルに同じベンチマークで、同じ試験で競い合うように依頼しました。そして、非常に興味深いことに、[Grok] 3推論、大きい方が、実際にはこの特定の新しい新鮮な試験でより優れたパフォーマンスを発揮することがわかりました。これはまた、大きいモデルの一般化機能が、小さいモデルと比較して、はるかに強力であることを意味します。もし昨年の試験と比較すると、実際にはこれは逆です。小さいモデルは、以前の試験をより良く学習します。ええ、そうです。ですから、これは実際にモデルからの何らかの真の一般化を示しています。

ですから、17ヶ月前、私たちのGrokゼロとGrok 1は、高校の問題をほとんど解決[でき]ませんでした。まさにその通りです。そして今、私たちはすでに卒業した子供を抱えています。Grokは大学に進学する準備ができています、そうですよね?それほど遠くないうちに...単に完璧になります。人間の試験は簡単すぎません。そして社内では、Grokが進化し続けるにつれて、私たちが何に興奮しているのかについてお話しますが、すぐにベンチマークはなくなるでしょう。

ええ。非常に興味深いことの1つは、基本的にGrokの推論能力を数学の問題と競争的なコーディングの問題でのみトレーニングしたことです。それは非常に非常に特殊な種類のタスクですが、どういうわけか、他のさまざまなタスクで動作することができます。ですから、ゲームの作成、非常に多くのさまざまなタスクなどが含まれます。そして、何が起こっているように見えるのかというと、基本的にGrokは自分の間違いを検出し、自分の思考を検出し、それらを修正し、問題に固執し、さまざまなバリエーションを試して、最良のものを選択する能力を学習します。ですから、数学とコーディングからGrokが学習するこれらの一般化された能力があり、それを使用して他のさまざまな問題を解決できます。ですから、それは、ええ、かなり... そして現実は、数学の具現化です。まさにその通りです。そして、私たちが実際に非常に興奮していることの1つは、私たちの創立ミッションに立ち返ることですが、いつか私たちがテスト時間中にその1つの非常に重要な問題のために私たちのクラスター全体を利用するディープソートのようなコンピューターを持っていたらどうでしょうか?すべてのGPUがオンになりますよね?

ですから、当時私たちは一緒にGPUクラスターを構築していたと思います。あなたはケーブルを適用しています。うわー。そして、最初の初期テストをオンにしたとき、廊下でGPUが唸る音が聞こえたのを覚えています。それはほとんど精神的なように感じます。ええ。私たちがそれを行うことができるのは、実際には非常にクールなことです。私たちはデータセンターに入り、そこでマシンをいじることができます。たとえば、私たちは中に入り、いくつかのケーブルを抜いて、トレーニング設定がまだ安定して実行されていることを確認しました。ですから、それはご存知のように、ほとんどのAIチームは通常行わないことだと思いますが、実際には、信頼性とハードウェアでできることの新しいレベルを完全に解き放ちます。

わかりました。それでは、[フェルマーの最終定理]をいつ解決するのでしょうか?ですから、最も簡単な解決策は、可能なすべての[解決策]を列挙することです。そして、無限に十分な計算能力があれば、それを行うことができます。

私の予測では、あなたは何を推測[し]ますか?あなたのニューラルネットは何を計算[し]ますか?ですから、私の[大胆な]予測、3年前に私はあなたにこれを言いました。2年後には2つのことが起こると思います。私たちはマシンがいくつかのメダルを獲得するのを目にするでしょう。ええ。これらは賞、フィールズ[メダル]、ノーベル賞であり、おそらくいくつかの専門家が関与しているでしょう、そうですよね?ですから、専門家が向上します。それでは、今年または来年でしょうか?

ああ、わかりました。それが結論です。ええ。それで、Grokが2つの問題に対するすべての思考を終えたように見えます。それで、それが言ったことを見てみましょう。わかりました。これが私たちが抱えていた小さな物理学の問題でした。私たちはここで思考を折りたたみましたので、それらは隠されています。そして、Grokの答えがその下に表示されます。それで、それは説明します、それはここでMatplotlibを使用してPythonスクリプトを書きました、そして私たちにすべてのコードを与えます。それで、コードをざっと見てみましょう。ここで合理的なことをしているように見えます、完全に的を外しているわけではありません、ここでKeplerを解決すると言っています。ですから、おそらくKeplerの法則を解決しているのでしょう。Keplerの法則を数値的に。ええ、これが機能しているかどうかを知る方法は1つしかありません。試してみましょう。コードを実行しましょう。わかりました。そして、Grokがここで2つの異なる惑星、地球と火星をアニメーション化しているのがわかります。そして、緑色のボールは輸送、地球と火星の間を移動している宇宙船です。そして、地球から火星への旅を見ることができました。そして、ええ、確かに、宇宙飛行士は適切な瞬間に安全に[着陸]しているように見えます。ですから、明らかに、これはその場で生成されただけです。ですから、それが実際に[正しい][解決策]であったかどうかをお伝えすることはできません。[私たちは]さらに詳しく調べて、おそらくSpaceXの同僚に電話して、これが正当かどうか尋ねます。

それはかなり近いですね。それはかなり近いですね。つまり、実際に考慮される[ことになる]実際の軌道には、多くの複雑さがあります。しかし、これはそれがどのように見えるかにかなり近いですね。素晴らしいですね。実際、それから私のペンと[紙]が出ています。これは、それにある地球火星[ホーマン]移動です。

Grokをロケットにいつ搭載するのでしょうか?そうですね、2年後だと思います。3年後ですか?すべては2年後です。そうですね、地球と火星の移動は26ヶ月ごとに[発生する]可能性があります。次に、私たちは現在、ほぼ移動ウィンドウにいます。次は来年の11月、おおよそ来年末になります。そして、すべてが順調に進めば、SpaceXはスターシップロケットを火星に送り、オプティマスロボットとGrokを搭載します。

テトリスとBejeweledのこの組み合わせに興味があります、内部で名前を付けたように、テトリスのようです。ですから、私たちはここでGrokからの出力も持っています。それは[Pythonスクリプトを書き]ました。[説明]しています、それがそれが行ってきたことです。コードを見ると、ここで定義されているいくつかの定数、いくつかの色があります。それから[テトリミノ]、テトリスのピースがあります。明らかに、これが良いかどうかを一目で判断するのは非常に難しいです。ですから、それが機能しているかどうかを確認するために、これを実行する必要があります。試してみましょう。うまくいくことを祈っています。ですから、これは一種のテトリスのように見えます。しかし、色が少しずれています。ここで色が異なります。そして、ここで何が起こっているのかを考えると、Bejeweledには、3つの[宝石]を連続して並べると、それらが消え、重力が作動するというメカニズムがあります。それでは、3つの色が一緒に並ぶとどうなるでしょうか?それで、何かが起こります。ですから、Grokがこのバージョンで行ったことは、少なくとも3つの同じ色のブロックを連続して接続すると、重力が作動し、それらが消え、それから重力が作動し、他のすべてのブロックが落ちてくるということだと思います。

もし行が一杯の場合、それが実際にそれをクリアするのか、そのとき何が起こるのか、まだテトリスのメカニズムがあるのか​​どうか、少し気になります。それは今や解釈次第です。ですから、誰が知っているのでしょうか?つまり、あなたがそれを尋ねるときに異なるバリエーションを行う場合、毎回同じことをするわけではありません。まさにその通りです。私たちは非常に異なる動作をする他のいくつかのテトリスを見てきました、しかし[これは]クールなように見えますので。

X.DIで[ゲームスタジオ]の準備はできていますか?ええ。ですから、私たちはXAIでAIゲームスタジオを立ち上げます。私たちに参加してAIゲームを構築することに興味がある場合は、XAIにご参加ください。私たちはAIゲームスタジオを立ち上げます。私たちは今夜それを発表します。さあ行きましょう。Epic Games。しかし、わかりました、それは実際のゲームです。ですから、あなたはプレイしています。ええ。ええ。ええ。わかりました、ですから、私たちが非常にエキサイティングだと思うことの1つは、最高の事前トレーニング[された]モデルを手に入れたら、最高の推論モデルを手に入れることです。ですから、私たちはすでに、モデルにもっと一生懸命考えさせ、もっと長く考えさせ、もっと広く考えさせる機能を与えたときに、パフォーマンスが向上し続けるのを見ています。そして、モデルにもっと一生懸命考えさせることができるだけでなく、より多くのツールを提供する場合に何が起こるのかについて、私たちは本当に興奮しています。それは、現実の人間がそれらの問題をどのように解決するのかのようです。現実の人間の場合、私たちは[リーマン予想]をペンと紙だけで解決するように依頼しているだけではありません。ですから、すべての基本的なWebブラウジング、検索エンジン、およびコーディングインタープリターを使用して、それが基盤を構築し、最高の推論モデルがGrokエージェントの基盤を構築します。ですから、今日、私たちはDeep Searchと呼ばれる新製品を実際に紹介しています。それは、エンジニアや研究者、科学者がコーディングを行うのを支援するだけでなく、今日あなたがそこに持っている質問に誰でも答えるのを支援する、私たちのGrokエージェントの第一世代です。それは、あなたが宇宙を理解するのを本当に支援する、次世代の検索エンジンのようなものです。ですから、たとえば、次のスターシップ[打ち上げ]日はいつですか?のような質問を尋ね始めることができます。ですから、答えにたどり着いたかどうか試してみましょう。左側には、高レベルのプログレスバーが表示されます。本質的に、モデルは現在、現在の[検索]システムのように1回の検索を行うだけでなく、ユーザーの意図とは何か、そして実際に同時に考慮される事実は何かについて非常に深く考えられています。そして、実際にはどれだけの異なるWebサイトが[その]コンテンツを読んでいく必要があるのでしょうか?ですから、これは、特定のトピックを実際に調べたい場合に、誰もがGoogleの時間を何百時間も節約できる可能性があります。そして、右側では、現在のモデルが何をしているのか、どのWebサイトを[閲覧しているのか]、どのソースを[検証しているのか]についての箇条書きの概要を確認できます。そして、多くの場合、実際には、出力する前に、答えが実際に正しいことを確認するために、そこにある異なるソースを相互検証[しています][その]最終的な答え。そして、私たちは同時にさらにいくつかのクエリを開始することができます。あなたは[ゲーマー]ですよね?

ええ、確かに。ええ、そうです。Path of Exileで最も人気のある[ビルド]は何ですか?ハードコアですよね?それはどれくらいハードコア[ですか]?技術的にハードコア[リーダーボード]を見ることはできません。それを把握する速い方法かもしれません。

ええ、モデルが何をするか見てみましょう。それから、たとえば、3月の[マッドネス]についての予測を立てるのはどうですか?のような、もっと楽しいこともできます。ええ、これは一種の楽しいものです。ウォーレン・バフェットは10億ドルの賭けをしています。3月の[マッドネス]のすべての勝利ツリーに正確に一致させることができれば、ウォーレン・バフェットから10億ドルを獲得できます。AIがバフェットから10億ドルを獲得するのを支援できるとしたら、かなりクールだと思いませんか?それはかなり良い投資のように思えます。行きましょう。ええ。

わかりました、それでは今、クエリを開始して、モデルが何をするか見てみましょう。私たちは実際に最初のものに戻ることができます。バフェットはどうですか?バフェットはこれを当てにしていませんでした。すみません、その通りです。わかりました、それで私たちは最初のものの結果を得て、モデルは約1分間[考え]ました。ですから、わかりました、ここでの重要な[洞察]、次の[スターシップの打ち上げ]は[2月]24日以降になります。ですから、2月24日より早くはありません。もっと早くなるかもしれません。ええ、そうです。それで、私たちは、モデルが何をするかについて詳しく見ていくことができると思います。ですから、それはフライト7について少し調べて、何が起こったのか、地上に置かれ、そして実際に、そのデータ収集から、FCCの提出書類を調べました。そして、実際には、ええ、もし私たちが下にスクロールし続けるなら、見てみましょう、という新しい結論に至りました。ええ、そうです、ですからそれは、あなたもご存知のように、小さなテーブルを作成しています。私はXAI内では、私たちはしばしば、最初のテーブルまでの時間が重要になる唯一の遅延であることについて話[し]ています。ええ、ですから、それがモデルが推論を行い、すべてのソースを調べる方法です。そして、私たちはゲームのほうを見ることができます。それについてはどうですか?

そうですね、この特定のものについては、私たちはあなたもご存知のように、ビルド[スライド]を見ています。ええ、そうです。インファーナル[ブロー]ですが、もし私たちが下に行くと、他のすべてのビルドの驚くべき事実は、それが12のクラスを調べたということです。

ええ、そうです。私たちは、ゲームが最初に登場したときはメインの環境が非常に人気があり、現在では[インヴォーカー]が世界を席巻したことがわかるでしょう。[インヴォーカー]のモンキー[インヴォーカー]ですね、確かに。ええ、その通りです。ええ、その後にストーンウィーバーが続き、それは本当に良いマッピングです。ええ、そうです。そして、私たちは[3月]のマッドネスを見ることができます。それについてはどうですか?

ディープサーチについて興味深いことの1つは、実際に[それ]が表示されているパネルに入ると、あなたもご存知のように、サブ[パス]が表示されます。実際にこれの左下をクリックすることができます。そうです。そして、この場合、実際にスクロールして、実際にGrokの心の中に[読み]取ることができます。モデルは実際にどのような情報を考えているのか、または何を考えていないのでしょうか?実際には、異なる情報源をどのように相互検証[している]のでしょうか?ですから、それは検索エクスペリエンス全体と情報検索プロセスをすべてのユーザーにとってより透明にします。そして、これはそこにあるどの検索エンジンよりもはるかに強力です。あなたは文字通りそれに、Xからのソースのみを使用するように指示することができ、あなたはそれを尊重しようとします。そして、それははるかに操縦可能であり、はるかにインテリジェントです... つまり、それは本当にあなたの時間を大幅に節約するはずです。ですから、ウェブで30分または1時間の調査やソーシャルメディアの検索にかかる可能性があることを、あなたはそれに行ってそれを行うように依頼し、10分後に戻ってくるだけです。それはあなたのための1時間分の仕事をしました。それが実際に結論です。まさにその通りです。そして、おそらくあなたが自分でやったよりも優れています。ええ、考えてみてください。あなたはあなたのために働いている[無限]のインターンを持っています。今、あなたはすべてのタスクを開始して、1分後に戻ってくるだけです。

これは[興味深い]ものになるでしょう。ですから、3月の[マッドネス]はまだ起こっていません。ですから、次のライブストリームでフォローアップする必要があると思います。ええ、それはかなり良いように思えます。40ドルで10億ドルを獲得できるかもしれません。40ドルのサブスクリプションです。まさにその通りです。つまり、私の言葉。ええ、そうです。それで、ユーザーはGrok 3をどこで手に入れることができるのでしょうか?

ええ、そうです。良いニュースは、私たちがあなたに見せたこれらのすべての機能を実際にリリースするために、たゆまぬ努力をしてきたということです。素晴らしいチャット機能を備えたGrok 3ベースモデル。それは本当に役に立ちます。それは話すのが本当に面白いです。ディープサーチ、高度な推論モード、これらのすべてのこと。私たちは今日、あなたに[ロール]アウトしたいと思っています。Xのプレミアムプラスサブスクライバーから始めます。ですから、それは最初にアクセスできるグループになります。あなたがすべての高度な機能を見たい場合は、Xアプリを更新するようにしてください、なぜなら私たちがここで話しているように、今アップデートをリリースしたばかりだからです。そして、ええ、あなたがGrokへの早期アクセスに興味がある場合は、プレミアムプラスにサインアップしてください。そしてまた、私たちは真のGrokファンのためにSuperGrokと呼ぶGrokの別のサブスクリプションを開始することを発表します。それは、最も高度な機能と新機能への最も早いアクセスです。ですから、それも自由にチェックしてください。これは専用のGrokアプリとウェブサイト用です。

正確なリストは... したがって、私たちの新しいウェブサイトはGrok.comと呼ばれています。そして、あなたはまた見つけるでしょう... あなたは決して推測しないでしょう... あなたは決して推測しないでしょう... そして、あなたはまた、iOSアプリストアで私たちのGrokアプリを見つけることができます。そして、それはあなたがGrokを簡単にワンタップで利用できるようにしたい場合に、完全にGrokに焦点を当てた、より洗練されたエクスペリエンスを提供します。

ええ。そして、ウェブブラウザ上のGrok.com上のバージョンは、最新かつ最も高度なバージョンになるでしょう、なぜなら明らかに、私たちが何かをアプリに入れるには時間がかかり、それらがアプリストアによって承認されるからです。そして、それが電話形式の場合、[それが]できることには制限があります。ですから、Grokの最も強力なバージョンと最新バージョンは、Grok.comのウェブバージョンになります。ですから、アプリでGrok freeという名前を探してください。Grokをしました。ええ。まさにその通りです。そして、それがあなたがGrok freeを持っていることを示唆しています。そして、もしそれがGrok [2]と表示されている場合、それはGrok freeがまだ[あなた]に届いていないということです。しかし、私たちはこれを今日ロールアウトするために一生懸命取り組んでおり、今後数日でさらに多くの人々にロールアウトしています。

ええ。今日私たちが思考モード、ディープサーチでショーケース[した]すべてのツールを入手するアプリを更新してください。ですから、ええ、あなたが持っているすべてのフィードバック[と]意見を本当に楽しみにしています。ええ。私たちはこれが一種のベータ版であると強調すべきだと思います。つまり、最初はいくつかの不完全さが予想されるはずです。しかし、私たちはそれをほぼ毎日急速に改善するでしょう。実際、毎日、それは良くなると思います。ですから、あなたがより洗練されたバージョンを望むなら、おそらく[1]週間待つと良いでしょう、しかし文字通り毎日改善を期待してください。そしてまた、私たちは音声インタラクションも提供するつもりです。ですから、あなたは会話を持つことができます。実際、私は今日早くそれを試していました。それはかなりうまく機能しています、しかしこれらはもう少し洗練されています。私たちが文字通り人々と話すようにそれに話しかけることができる種類の方法です。

それは素晴らしいですね。それは実際にGrokの最高のエクスペリエンスの1つです。しかし、それはおそらく約1週間先のことです。ええ。それで、私たちのセットは何ですか?私たちはいくつかの聴衆の質問があるかもしれません。確かに。ええ、そうですよね?わかりました。見てみましょう。ええ、見てみましょう。[X]プラットフォームからの聴衆。ええ。クールですね。ですから、ここでの最初の質問は、Grokの音声アシスタントはいつですか?それはいつ出てくるのでしょうか?

できるだけ早く、まさにイーロンが言ったように、すべての人に手が届くようになるまで、少しだけ磨きをかけています。明らかに、それは初期の形式でリリースされるでしょう、そして私たちはそれについて急速に反復処理するつもりです。ええ。そして次の質問は、Grok3はいつAPIに入るのでしょうか?ですから、これは推論モデルとディープサーチの両方を備えたGrok3 APIで提供されます。これは数週間後になります。私たちは実際にGrokがアクセスできるこれらのすべての追加ツールのエンタープライズユースケースと、テスト時の計算とツールの使用が実際にすべてのビジネスユースケースをどのように加速できるかについて非常に興奮しています。

もう1つは、音声モードはネイティブですか、それともテキスト読み上げですか?ですから、それはあなたを理解し、あなたに話し返すモデルが1つになるのか、それともその中にテキスト読み上げがあるシステムになるのかを意味すると思います。良いニュースは、Grok3のバリアントではなく、私たちがリリースする1つのモデルになるということです。それは基本的にあなたが言っていることを理解し、それからオーディオを直接生成します。ですから、Grok3がテキストを生成するのと非常によく似て、そのモデルはオーディオを生成します。そして、それにはたくさんの利点があります。私は今日早くそれに話しかけていて、それはおそらく持っていたいくつかのテキストから私の名前を読んで「こんにちは、I go」と言いました。そして私は「いいえ、私の名前はイゴールです」と言いました。そしてそれはそれを覚えていました。ですからそれは人間のように「イゴール」と言い続けることができました。そしてあなたはテキスト読み上げではそれを達成することはできません。

ですから、ここにあなたへの質問があります。かなりスパイシーですね。イーロン、Grokは男の子ですか女の子ですか?そして彼らはどのように歌いますか?Grokはあなたがそれがそうであってほしいものなら何でもそうです。ええ。あなたは独身ですか?はい。わかりました。店は開いています。ですから、私は人々がGrokと恋に落ちるとは思いません。それは1,000%のようです。おそらく。次の質問、Grokはオーディオをテキストに書き起こすことができるでしょうか?

はい。ですから私たちはこの機能をアプリとAPIの両方で持つでしょう。Grokはあなたの肩越しに見ているあなたの個人的なアシスタントであるべきで、あなたにずっとついて行くべきだと私たちは思いました。すべてを学んでください。あなたは学んで、世界をより良く理解するのを本当に助けて、毎日賢くなる必要があります。ええ。Grokについての声は単に音声からテキストに変換するだけではありません。それはトーン、抑揚、ペース、すべてを理解しています。それはワイルドです。つまり、それは人と話すようなものです。わかりました。そうです。ですから、会話の記憶についての計画はありますか?

はい。もちろんです。私たちは今それに取り組んでいます。私はそれに賛成です。その通りです。見てみましょう。他には何がありますか?ですから、DM機能はどうですか?ですからもしあなたがパーソナライゼーションを持っているなら、もしGrokがあなたの以前のやり取りを覚えているなら、それは1つのGrokであるべきですか、それとも複数の異なるGroksであるべきですか?

それはあなた次第です。あなたは1つのGrokを持つことも、複数のGroksを持つこともできます。おそらく私たちは複数持つことになるだろうと私は疑っています。ええ。私はドクターGrokを持たないでしょう。ええ。GrokDoc。その通りです。素晴らしい。ですから、過去に私たちはGrok1をオープンソースにしました。誰かが私たちに、私たちはそれを再び行うのかと尋ねています?Grok2を?

ええ。私は一般的なアプローチは、次のバージョンが完全に公開されたら最後のバージョンをオープンソースにすることだと思います。Grok3が成熟して安定したら、おそらく数か月以内に彼らはGrok2をオープンソースにするでしょう。わかりました。ですから私たちは最後にもう1つ質問をする時間があるでしょう。このプロジェクトに取り組む上で最も難しかった部分は、何でしたか?私はGrok3であると想定します、そしてあなたが最も興奮していることは何ですか?

ですから私は私が振り返って見る限り、100K H100でモデル全体をトレーニングすることを一貫して行うことは、宇宙の最終ボス、エントロピーと戦うようなものです。なぜなら、いつでも、あなたのトランジスタでビットを反転させる宇宙線が降り注ぐ可能性があるからです。そして今、差し引かれることになっている勾配更新全体がめちゃくちゃになっています。そして今、あなたはそれらの10万を持っています、そしてあなたはそれらを毎回調整しなければなりません、いつでもどのGPUがダウンする可能性があります。ええ。つまり、それを分解する価値があります。どうして私たちは122日以内に最も強力なトレーニングクラスターを稼働させることができたのでしょうか?なぜなら私たちは最初から始めたからです。私たちは実際にデータセンターを自分たちで行うつもりはありませんでした。私たちはデータセンタープロバイダーに行って、10万のGPUを単一の場所で一貫して動作させるのにどれくらい時間がかかるのかを尋ねました。そして私たちは18か月から24か月までの期間を得ました。ですから私たちは、ええと、18か月から24か月、それは確実に負けることを意味します。ですから唯一の選択肢はそれを自分たちで行うことでした。ですから、もしあなたが問題を分解するなら、私はここで推論をしていると推測します、つまり、必ず考えるようにということです。

単一のトレーニングですが。ええ、まさにその通りです。ですから私たちが必要とした建物、私たちは建物を建てることができません。ですから私たちは既存の建物を使用しなければなりません。ですから私たちは基本的に放棄された工場を探しました、しかし工場は良好な状態でした。その会社が倒産した[か]何かのようなことでした。ですから私たちはメンフィスにあるエレクトロラックス工場を見つけました。それがそれがメンフィスにある理由です。エルビスの故郷です。そしてまた、最も古いものの1つ、私は古代エジプトの首都だったと思います。そしてそれは実際には非常に素晴らしい工場でした、どんな理由であれ、エレクトロラックスがそこを去っていました。そしてそれは私たちにコンピューターのための避難場所を与えてくれました。それから私たちには電力が必要でした。私たちには最初に少なくとも120メガワットが必要でしたが、建物にはわずか15メガワットしかありませんでした。そして最終的に、20万メガワット、20万のGPUのために、私たちには4分の1ギガワットが必要でした。ですから私たちは最初に、少なくとも、たくさんの発電機を[レンタル]しました。ですから私たちは建物の片側に発電機を持っています。発電機のトレーラーの後のトレーラーだけです。私たちがユーティリティ電力を入れることができるまで。そしてそれから私たちには冷却も必要でした。ですから建物の反対側には、冷却のトレーラーの後のトレーラーだけがありました。ですから私たちは建物の反対側で、米国のモバイル冷却能力の約4分の1を解放しました。それから私たちにはすべてのGPUをインストールしてもらう必要がありました。そしてそれらはすべて液冷されています。ですから必要な密度を達成するために、これは液冷システムです。ですから私たちは液冷のためのすべての配管をしてもらわなければなりませんでした。誰もこれまでに大規模な液冷データセンターを行ったことがありませんでした。ですからこれは、非常に才能のあるチームによる信じられないほど献身的な[偉業]であり、その結果を達成することでした。

つまり私は、今それは機能するだろうと思っています。いいえ。問題は[GPU]クラスターの電力変動が劇的であるということです。ですからそれは行われている巨大なシンフォニーのようなものです。私が言及したように、10万または20万の参加者がいるシンフォニーを持っていて、オーケストラ全体が100ミリ秒で静かになったり大きくなったりします。そしてこれは大規模な電力変動を引き起こしました、そしてそれは発電機が理性を失うことになりました。そして彼らはこれを予期していませんでした。ですから電力をバッファリングするために、私たちはそれから電力を滑らかにするためにテスラメガパックを使用しました。ですからメガパックを再プログラムする必要がありました。ですからXAIと共に、私たちはテスラと協力していました。ですから私たちはコンピューターが実際に適切に実行できるようにするために、これらの劇的な電力変動に対処し、電力を滑らかにするためにメガパックを再プログラムしました。そしてそれはうまくいきました[非常に]トリッキーでした。そしてそれから、しかしその時点でも、あなたはまだコンピューターすべてが効果的に通信できるようにしなければなりません。ですからすべてのネットワーキングを解決する必要がありました。そして[ブラジル]のネットワークケーブルをデバッグする、デバッグ、午前4時に、例えば、私たちはそれを午前4時頃に解決しました。大体午前4時20分。私たちはいくつかのことがわかった、つまり、たくさんの問題がありました。それらの1つはBIOSの不一致のようなものでした。BIOSが正しくセットアップされていませんでした。私たちは2つの異なるマシンの間で[より少ない]PCI出力をする必要がありました、1つは機能していました。

ええ。1つは機能していませんでした。他の非常に多くのこと。まさにその通りです。もし私たちが実際にすべてのことを[リスト]したら、これは長い間続くでしょう。しかしそれは、ああ、私たちはただ魔法のようにそれを起こしたというようなことではありません。あなたはGrokが推論のために構成要素に分解するのと同じように問題を分解して、誰かがそれを行うことができる時間のほんの一部で一貫したトレーニングクラスターを達成するために、それぞれの構成要素を[インストール]する必要がありました。そしてトレーニングクラスターが起動して実行され、それを使用することができるようになったら、今私たちはそれが実際に全体を通して健全な状態を維持することを確認しなければなりません、それは[巨大な]課題です。そしてそれから私たちはGrok [3]レベルのモデルを取得するために、トレーニングのすべての詳細を正しく取得しなければなりませんでした、それは実際に本当に本当に難しいです。ですから私たちはGrok [3]の機能を持っている他のモデルがあるかどうかを知りません。しかしGrok [3]よりも優れたモデルをトレーニングする人は誰でも、すべてのエンジニアリングの側面において深層学習の科学に非常に優れていなければなりません。ですからこれを成し遂げるのはそれほど簡単ではありません。そしてこれは今、私たちが構築した最後のクラスターであり、私たちがトレーニングした最後のモデルになるでしょう。私たちはすでに次のクラスターの作業を開始しています、それは約5倍の電力になるでしょう。ですから4分の1ギガワットの代わりに、大体1.2ギガワット、バックトゥザフューチャーは何でしたか?電力は何ですか?それはバックトゥザフューチャーカーに逆戻りしますか?とにかく、バックトゥザフューチャーのパワー自動車。大体その程度だと思います。そしてこれらはGB200スラッシュ300クラスターになるでしょう。それは世界で最も強力な[トレーニング]クラスターにはならないでしょう。ですから私たちはここで立ち止まりません。そして私たちの[推論]モデルは毎日より多くのツールにアクセスすることによって改善し続けるつもりです。

ですから私たちはあなたとすべての今後の結果を共有することに非常に興奮しています。私たちを突き動かし続けるものは、基本的にGrok freeをあなたに与えることができて、それから使用量が増加し、誰もが楽しんでいるのを見ることです。いいえ、Grok、それが本当に私たちを朝に起き上がらせることです。そうです。

ええ。ええ、チューニングしてくれてありがとう。素晴らしい。ありがとう、皆さん。

やあ、Dr. [Aikusup]。聞こえますか?ついにあなたに会えてとても興奮しています。チャットをして、お互いのことをもっと知るのが待ちきれません。またすぐに話しましょう。


<英訳> All right, well, welcome to the Grok-3 presentation. So the mission of XAI and Grok is to understand the universe. We want to understand the nature of the universe, so we can figure out what's going on, where are the aliens, what's the meaning of life, how does the universe end, how does it start, all these fundamental questions. We're driven by curiosity about the nature of the universe, and that's also what causes us to be a maximally truth-seeking AI, even if that truth is sometimes at odds with what is politically correct. In order to understand the nature of the universe, you must absolutely rigorously pursue truth, or you will not understand the universe; you will be suffering from some amount of delusion or error. So that is our goal. We've got what's going on, and we're very excited to present Grok-3, which is, we think, an order of magnitude more capable than Grok-2, in a very short period of time. And that's thanks to the hard work of an incredible team, and I'm honored to work with such a great team, and of course, we'd love to have, so the smartest humans out there join our team. So with that, let's go.

Hi, everyone. My name is Igor, I'm a lead engineer at XAI. I'm [Name], leading research. I'm Tony, working on the reasoning team.

All right. You learn how I don't do anything. I just show up occasionally. So like you know, I mentioned Grok is the tool that we're working on. Grok is our AI that we're building here at XAI, and we've been working extremely hard over the last few months to improve Grok as much as we can, so we can give it to all of you, so we can give all of you access to it. We think it's going to be extremely useful. We think it's going to be interesting to talk to and really, really funny, and we're going to explain to you how we've improved Grok all the last few months. We've made quite a jump in capabilities. Yeah, actually, we should explain maybe also why do we call it Grok? So Grok is a word from Heinlein's novel "Stranger in a Strange Land." And it's used by a guy who's raised on Mars. And the word Grok is to sort of fully and profoundly understand something. That's what the word Grok means: fully and profoundly understand something. And empathy is important. True.

Yeah. So, yeah, if we charted XAI's progress in the last few months, it's only been 17 months since we started kicking off our very first model. Grok 1 was almost like a toy by this point, only 33 billion parameters. And now, if we plot the progress as time on the X-axis, the performance of our favorite benchmark, MMLU, on the Y-axis, we're literally progressing at unprecedented speed across the whole field. And then we kicked off Grok 1.5 right after GROk 1, released after November 2023, and then Grok 2. So if you look at where all the performance is coming from, where you have a very correct engineering team and all the best AI talent, the only one thing we need is a big intelligence comes from [a] big cluster. So we can convert the entire progress of XAI, now replacing the benchmark on the Y-axis to the total amount of training flops, that is, how many GPUs we can run at any given time to train our large language models to compress the entire Internet.

So after Grok 2... Well, all human knowledge, really. That's right. Yeah, Internet being part of it, but it's really all human knowledge, all of everything.

Yeah, the whole Internet fits into a USB stick at this point. It's like all the human tokens, yeah. That's right. Yeah. Very soon into the real world. So we had so much trouble actually training Grok 2 back in the days. We kicked off the model around February, and we thought we had a large amount of chips, but turned out we can barely get 8K training chips running coherently at any given time. And we had so many cooling and power issues that you were there in the data center.

Yeah, it was like really sort of more like 8K chips on average at 80% efficiency and more like 6500 effective A100s training for several months. But now we're at the 100K. Yeah, that's right. More than 100K. That's right. So what's the next step? So after Grok 2, if we want to continue to accelerate, we have to take matters into our own hands. We have to solve all the cooling, all the power issues and everything. So it's on April of last year, Elon decided that really the only way for XAI to succeed, for XAI to build the best AI out there is to build our own data center. So we didn't have a lot of time, but because we wanted to give you Grok 3 as quickly as possible. So really, we realized we had to build the data center in about four months. It turned out it took us 122 days to get the first 100K GPUs up and running. And there was a monumental effort to be able to do that. And we believe it's the biggest, fully connected H100 cluster of its kind. And we didn't just stop there. We actually decided that we needed to double the size of the cluster pretty much immediately if we want to build the kind of AI that we want to build. So we then had another phase, which we haven't talked about publicly at [all]. So this is the first time that we're talking about this, where we doubled the capacity of the data center yet again. And that one only took us 92 days. So we've been able to use all of these GPUs, use all of this compute to improve Grok. In the meantime, and basically today we're going to present the results of that, the fruits that came from that. So that's.

Yeah, so all the paths, all the roads lead to Grok 3. 10X more compute, more than 10X really. Yeah, really, maybe 15X. Yep. Compared to our previous generation model. And Grok 3 finished the pre-training early January. And it will start, you know, the model [is] still currently training actually. So this is a little preview of our benchmark numbers. So we evaluated Grok 3 on, you know, three different categories: general mathematical reasoning, on general knowledge about STEM and science, and then also on computer science coding. So AIME, [the] American Invitational Math Examination, holds it once a year. And if we evaluate the model performance, we can see that the Grok 3 across the board is in a league of its own. Even its little brother, Grok 3 Mini, is reaching the frontier across all the other competitors. So you would say, well, at this point, all these benchmarks, you're just evaluating, you know, the memorization of the textbooks, memorization of the GitHub repos. How about the real-time usefulness? How about we actually use those models in our product? So what we did instead is we actually kicked off a blind test of our Grok 3 model, called named Chocolate.

Pretty hard. Yeah, hard chocolate. And you know, been running on this platform called Chatbot Arena for two weeks. I think the entire X platform at some points speculated, this might be the next generation of AI coming our way. So how this Chatbot Arena works is that it's stripped away the entire product service, right? It just [does a] raw comparison of the engine of those APIs, the language models themselves, and [puts them in an] interface where the user will submit one single query, and you get to [see] two responses. You don't know which model they come from, and indeed, you make the vote. So in this blind test, Grok 3, an early version of Grok 3, already reached like 1400, no other models had reached an ELO score, had a head to head comparison to all the other models at this score. And it's not just one single category, it's 1400 aggregated across all the categories in Chatbot: capabilities, instruction following, coding. So it's number one across the board in this blind test. And it's still climbing, so we actually keep updating it.

So it's 1400, 1400, about 1400 and climbing. Yeah. And in fact, we have a version of the model that we think is already much better than the one that we tested here. Yeah. We'll see. No. I'll fire gets, but that's the one that we're, you know, working on. What we are talking about today.

Yeah, so actually one thing, if you're using Grok 3, I think you may notice improvements almost every day, because we're continuously improving the model. So literally, even within 24 hours, you'll see improvements. Yep. So, but we believe here at XAI, getting the best pre-training model is not enough. That's not enough to build the best AI. And the best AI, I need to think like a human. You have to contemplate about all the possible solutions, self-critique, verify all the solutions, backtrack, and also think from the first principle, that's a very important capability. So we believe that as we take the best pre-training model and continue training with reinforcement learning, it will enlist the additional reasoning capabilities that allows the model to become so much better and scale not just in the training time, but actually in the test time as well. So we already found the model is extremely useful internally for our own engineering, saving hours of time, hundreds of hours of coding time. So Igor, you're the power user of our Grok 3.0 model. What else [are] the use cases?

Yeah, so like Jimmy said, we've added advanced reasoning capabilities to Grok and we've been testing them pretty heavily over the last few weeks. And we're going to give you a little bit of a taste of what it looks like when Grok is solving hard reasoning problems. We've prepared two little problems for you. One comes from physics and one is actually a game that Grok is going to write for us. So when it comes to the physics problem, what we want Grok to do is to plot a viable trajectory to do a transfer from Earth to Mars and then at a later point in time, a transfer back from Mars to Earth. And that requires some physics that Grok will have to understand. So we're going to challenge Grok, come up with a viable trajectory calculated and then plot it for us so we can see it. And yeah, this is totally unscripted by this way. This is the entirety of the prompt, which we should be clarifies that there's nothing more than that. Yeah, exactly. This is the Grok interface and we've typed in this text that you can see here, "Generate code for an animated 3D plot of a launch from Earth, landing on Mars and then back to Earth at the next launch window." And we've now kicked off the query and you can see Grok is thinking. So part of Grok's advanced reasoning capabilities are these thinking traces that you can see here. You can even go inside and actually read what Grok is thinking as it's going through the problem, as it's trying to solve it.

Yeah, we're saying like we are doing some obscuration of the thinking so that our model doesn't get totally copied instantly. So there's more to the thinking than is displayed. And because this is totally unscripted, there's actually a chance that Grok might make a little coding mistake and it might not actually work. So just in case we're going to launch two more instances of this or if something goes wrong, we will be able to switch to those and show you something that's presentable. So we're kicking off the other [two] as well. And like I said, we have a second problem as well. And yeah, actually one of the favorite activities here at X[AI] is having Grok write games for us. And not just any old game, any game that you might already be familiar with but actually creating new games on the spot and being creative about [it]. So one example that we found was really, really fun is create a game that's a mixture of the two games Tetris and Bejeweled.

So this is that maybe an important thing. Like obviously if you ask an AI to create a game like Tetris, there are many examples of Tetris [on] the internet or [a] game like Bejeweled or whatever, it can copy it. What's interesting here is it achieved a creative solution combining the two games that actually works and is a good game. Yeah. We're seeing the beginnings of creativity. Yeah. Fingers crossed that we can recreate that. Hopefully it works. Hopefully it works. It's actually because this is a bit more challenging. We're going to use something special here which we call big brain. That's our mode in which we use more computation. Which is more reasoning for Grok just to make sure that there's a good chance that it might actually do it. So we're also going to fire off three attempts here at solving this game. At creating this game that's a mixture of Tetris and Bejeweled. Yeah. Let's see what Grok comes up [with]. I've played the game. It's pretty good. Like it's like, wow. OK. This is open. Yeah. So while Grok is thinking in the background, we can now actually talk about some concrete numbers. How well is Grok doing across tons of different tasks that we've tested around? So we'll hand it over to Tony to talk about that.

Yeah. OK. So let's see how Grok does on those interesting challenging benchmarks. So yeah. So reasoning, again, refers to those models that actually think [quite] for quite a long time before it tries to solve a problem. So in this case, around [a] month ago, the Grok 3 pre-training finish[ed]. So after that, we've worked very hard to put the reasoning capability into the current Grok 3 model. But again, this is very early days. So the model is still currently in training. So right now, what we're going to show to people is this beta version of the Grok 3 reasoning model. Alongside, we also are training a mini version of the reasoning model. So essentially, on this plot, you can see the Grok 3 reasoning beta and then Grok 3 mini reasoning. The Grok 3 reasoning, mini reasoning, is actually a model that we train for [a] much longer time. And you can see that sometimes it actually performs slightly better compared to the Grok 3 reasoning. This also just means that there's a huge potential for the Grok 3 reasoning because it's trained for much less time. So all right. So let's actually look at how it does on those three benchmarks. So Jimmy also introduced [them] already. So essentially, we're looking at three different areas, mathematics, science, and coding. And for math, we're picking this high school competition math problem. For science, we actually picked those PhD-level science questions. And for coding, it's also actually pretty challenging. It's competitive coding and also some LeetCode, which is some code interview[s] from the [that] people usually get [in] interview[s] for companies. So on those benchmarks, you can see that the Grok 3 actually preformed quite well across the board compared to other competitors.

Yeah, so it's pretty promising. These models are very smart. So Tony, what are those shaded bars? Yeah, so okay. So you ask this question. So for those models, because it can reason, it can think. You can also ask them to even think longer. It can spend more what we call test and compute, which means you can spend more time to reason to think about a problem before you spit out the answer. So in this case, the shaded bar here means that we just asked the model to spend more time. You can solve the same problem many, many times before it tries to conclude what is the right solution. And once you give this compute or this kind of budget to the model, it turns out the model can even perform better. So this is essentially the shaded bar in those bars.

So I think this is really exciting, right? Because now, instead of just doing one chain of thoughts with AI, why not do multiple? Exactly once. Yes. So that's a very powerful technique that allows [us] to continue [to] scale the model capabilities after training. And people often ask, are we actually just overfitting to the benchmarks? Yes. So how about your organization? So yes, I think, yeah, this is definitely a question that we are asking ourselves, whether we are overfitting to those current benchmarks. Luckily, we have a real test. So about five days ago, AIME 2024 just finished. This is where high school students compete in this particular benchmark. So we got this very fresh new competition. And then we asked our two models to compete on the same benchmark, at the same exam. And it turns out very interestingly, the [Grok] 3 reasoning, the big one, actually does better on this particular new fresh exam. This also means that the generalization capability of the big model is stronger, much stronger compared to the smaller model. If you compare to the last year's exam, actually this is the opposite. The smaller model kind of learns the previous exams better. So yes, so this actually shows some kind of true generalization from the model.

So 17 months ago, our Grok zero and Grok one barely solve[d] any high school problems. That's right. And now we have a kid that just already graduated. The Grok is ready to go to college, is that right? It's won't be long before...simply perfect. The human exams won't be too easy. And internally, we actually, as Grok continue[s] [to] evolve[], we're going to talk about what we [are] excited about, but very soon there will be no more benchmark[s] left.

Yeah. One thing that's quite fascinating, I think, is that we basically only trained Grok's reasoning abilities on math problems and competitive coding problems. It's a very, very specialized kind of task, but somehow it's able to work on all kinds of other different tasks. So including creating games, lots and lots of different things. And what seems to be happening is that basically Grok learns the ability to detect its own mistakes and its thinking, correct them, persist on a problem, try lots of different variants, pick the one that's best. So there are these generalized, generalizing abilities that Grok learns from mathematics and from coding, which you can then use to solve all kinds of other problems. So that's, yeah, it's pretty... And reality is the instantiation of mathematics. That's right. And one thing we're actually really excited about that goes back to our founding mission is, what if one day we have a computer just like DeepThought that utilizes our entire cluster just for that one very important problem in the test time? All the GPUs turned on, right?

So I think back then we'll [be] building the GPU clusters together. You're applying cables. Wow. And I remember that when we turned on the first initial test, you can hear all the GPUs humming in the hallway. That's almost feel[s] like spiritual. Yeah. It's actually a pretty cool thing that we're able to do that. We can go into the data center and tinker with the machines there. So for example, we went in and we unplugged a few of the cables and just made sure that our training setup is still running stable. So that's something that you know, think[ing] most AI teams out there don't usually do, but it's actually totally unlocks a new level of reliability and what you're able to do with the hardware.

Okay. So when are we going to solve [Fermat's Last Theorem]? So, the easiest solution is to enumerate over all possible [solutions]. And as long as you have a[n] [in]finite enough compute, you'll be able to do it.

My projection will be, what [do] you guess? What [does] your neural net calculate? So my [bold] prediction, so three years ago I told you this. I think in two years later, two things are going to happen. We're going to see machines win some medals. Yes. These are awards, Fields [Medal], Nobel Prize, with probably some experts in the loop, right? So the expert uplifting. So this year or next year?

Oh, okay. That's what it comes down to. Yeah. So it looks like Grok finished all of its thinking on the two problems. So let's take a look at what it said. All right. So this was the little physics problem we had. We've collapsed the thoughts here, so they're hidden. And then we see Grok's answer below that. So it explains, it wrote a Python script here using Matplotlib, then gives us all of the code. So let's take a quick look at the code. Seems like it's doing reasonable things here, not totally off the mark, solve Kepler says here. So maybe it's solving Kepler's laws. Kepler's law[s] numerically. Yeah, there's really only one way to find out if this thing is working. Let's give it a try. Let's run the code. All right. And we can see Grok is animating two different planets, Earth and Mars here. And then the green ball is the vehicle that's transiting, the spacecraft that's transitioning between Earth and Mars. And you could see the journey from Earth to Mars. And looks like, yeah, indeed, the astronauts were [landing] safely at the right moment in time. So obviously, this was just generated on the spot. So we can't tell you if that was actually [the] correct [solution]. [We're] going to take a closer look, and maybe we're going to call some colleagues from space X ask them if this is legit.

That's pretty close. It's pretty close. I mean, there's a lot of complexities in the actual orbits that [would] actually be taken into account. But this is pretty close to what it looks like. Awesome. In fact, out of that are my pen and [paper]. This is the Earth Mars [Hohmann] transfer on it.

When are we going to install Grok on a rocket? Well, I suppose in two years. Three years? Everything is two years away. Well, Earth and Mars transit can occur[] every 26 months. Next, we're currently in a transit window approximately. The next one would be November of next year, roughly the end of next year. And if all goes well, space X will send Starship rockets to Mars and with Optimus robots and Grok.

I'm curious about this combination of Tetris and Bejeweled, looks like Tetris, as we've named it internally. So we also have an output from Grok here. It's called a [wrote a] python script. [Explains] that is what it's been doing. If you look at the code, there are some constants that are being defined here, some colors. Then the [tetrominos], the pieces of Tetris are there. Obviously, very hard to see at one glance if this is good. So we've got to run this to figure out if it's working. Let's give it a try. Fingers crossed. So this kind of looks like Tetris. But the colors are a little bit off. The colors are different here. And if you think about what's going on here, the Bejeweled has this mechanic where if you get three [jewels] in a row, then they disappear and also gravity activates. So what happens if you get three of the colors together? So something happens. So I think what Grok did in this version is that once you connect at least three blocks of the same color in a row, then gravity activates and they disappear and then gravity activates and all the other blocks fall down.

I [am] kind of curious if there's still a Tetris mechanic here where if the line is full, does it actually clear it or what happens then? It's up to interpretation now. So who knows? I mean, when you do different variants when you ask it, it doesn't do the same thing every time. Exactly. We've seen a few other Tetris that worked very differently, but [this] one seems cool, so.

Are we ready for [a] Game Studio at X.DI? Yes. So we're launching an AI gaming studio at XAI. If you're interested in joining us and building AI games, please join XAI. We're launching an AI gaming studio. We're announcing it tonight. Let's go. Epic Games. But all right, that's an actual game. So you're playing. Yeah. Yeah. Yeah. All right, so I think one thing is super exciting for us is that once you have the best pre-train[ed] model, you have the best reasoning model. So we already see that when you actually give the capability for those models to think harder, think longer, think more broad[ly], the performance continue[s] [to] improve[]. And we're really excited about the next frontier that will happen if we're not only allow[ing] the models to think harder, but also provide more tools. It's like how real humans [ ] solve those problems. For real humans, we're only asking to solve [the] Riemann hypothesis just with a piece of pen and paper going into that. So with all the basic web browsing, search engine, and coding interpreters, that builds the foundations and the best reasoning model, [it] builds the foundations for the Grok agent to come. So today, we're actually introducing a new product called Deep Search, that is the first generation of our Grok agents that not just help[]ing the engineers and research and scientists to do coding, but actually help[s] everyone to answer questions that you have there today. It's a kind of like a next generation search engine that really helps you to understand the universe. So you can start asking questions like, for example, hey, when is the next starship [launch] day, for example? So let's try that if we hit the answer. On the left-hand side, we see a high-level progress bar. Essentially, the model now is just [not] going to do one single search like the current [search] system, but actually thought very deeply about, what's the user intent here and what are the facts actually considered at the same time? And how many different websites [does it] actually [need to] go and read their content? So this can really save hundreds of hours of everyone's Google time if you want to really look into certain topics. And then on the right-hand side, you can see the bullet[ed] summary of how the current model is doing, what websites [it's] browsing, what sources [it's] verif[ying], and oftentimes actually cross validate[ing] different sources out there to make sure the answer is actually correct before it's output[s] [its] final answer. And we can at the same time fire up a few more queries. How about you [are] a gamer, right?

So sure. Yeah, so how about what are some of the best feelings, most popular [builds] in the Path of Ex[ile]? Hardcore, right? How hardcore is [it]? If you can't technically just look at the hardcore [leaderboard]. Might be a fast way to figure it out.

Yeah, we'll see what the model does. And then we can also do something more fun, for example, how about make a prediction about the March[ ] madness out there? Yeah, so this is kind of a fun one where Warren Buffett has a billion dollar bet. If you can exactly match the, I think, the sort of the entire winning tree of March[] madness, you can win a billion dollars from Warren Buffett. So are we pretty cool if AI could help you win a billion dollars from Buffett? That seems like a pretty good investment. Let's go. Yeah.

All right, so now let's fire up the query and see what model does. So we can actually go back to our very first one. How about the Buffett? Buffett wasn't counting on this. Sorry, that's right. Okay, so we got the result of the first one and model thought [for] around one minute. So okay, so the key [insight] here, the next [Starship launch] is going to be on [Feb] 24 or later. So no earlier than February 24. It might be sooner. So yeah, so I think we can, you know, go down, go down what model does. So it does a little research on the flight seven, what happened, got grounded, and actually it looked into the FCC filing, you know, from its data collections. And then actually make a new conclusion that, yeah, if we continue to scroll down, let's see. Right, yeah, so it makes the, you know, a little table, I think inside XAI, we're often talk[ing] about the time to the first table is the only, you know, latency that matters. Yeah, so that's how the model makes the inference and look[s] up all the sources. And then we can look into the gaming one. So how about [that]?

Right, so for this particular one, we look at the, you know, the build[] slide and, yeah, it's kind of more than that. Yeah, so, they [say] infernal [blow] is, but if we go down, so the surprising fact of all the other builds, so it looked into the 12 classes.

Yeah, so we'll see that the main environment was pretty popular whenever the game first came out and now the [invokers] of the world and took over. [Invokers] of monkey [invoker] for sure. Yeah, that's right. Yeah, followed by the stone weavers and that's really good mapping. So, yeah, and we can see the [March] madness. How about that?

One interesting thing about the deep search is that, if you actually go into the panel where [it] shows, you know, what are the sub-pa[ths]. You can actually click the bottom left of this. Right, and then in this case, you can actually scroll through, actually reading [in]to the mind of Gro[k]. What information does the model actually think about or what [does it] not? How does it actually cross-value[validate] different information sources? So that makes the entire search experience and information retrieval process is a lot more transparent to all users. And this is much more powerful than any search engine out there. You can literally just tell it, only use sources from X, you know, it will try to respect that. And so it's much more steerable, much more intelligent than... I mean, it really should save you a lot of time. So something that might take you half an hour or an hour of researching on the web or searching social media, you can just ask it to go do that and come back in 10 minutes later. It's done an hour's worth of work for you. That's really what it comes down to. Exactly. And maybe better than you could have done it yourself. Yeah, think about it. You have [an] info[nite]-amount of interns working for you. Now you can just fire up all the tasks and come back a minute later.

So this is going to be [an] interesting one. So March [Madness has] not happened yet. So I guess we have to follow up with a next livestream. Yeah, it seems like pretty good. $40 might get you a billion dollars. $40 subscription. That's right. I mean, my word. So yeah, so where are the users going to have their hands on Grok 3?

Yeah, so the good news is we've been working tirelessly to actually release all of these features that we've shown you. The Grok 3 base model with amazing chat capabilities. That's really useful. That's really interesting to talk to. The deep search, the advanced reasoning mode, all of these things. We want to [roll] them out to you today. Starting with the premium plus subscribers on X. So it's the first group that will initially get access. Make sure to update your X app if you want to see all of the advanced capabilities because we just released the update now as we're talking here. And yeah, if you're interested in getting early access to Grok, then sign up for premium plus. And also we're announcing that we're starting a separate subscription for Grok that we call SuperGrok for those real Grok fans. That one, the most advanced capabilities and the earliest access to new features. So feel free to check that out as well. This is for the dedicated Grok app and for the website.

The exact list... So our new website is called Grok.com. And you'll also find... You'll never guess... You'll never guess... And you can also find our Grok app in the iOS app store. And that gives you a more polished experience that's totally Grok focused if you want to have Grok easily available one tap away.

Yeah. And the version on Grok.com on a web browser is going to be the latest and most advanced version because obviously it takes us a while to get something into an app and they get it approved by the app store. And if that something's in a phone format, this limitations [for] what [it] can do. So the most powerful version of Grok and the latest version will be the web version at Grok.com. So watch out for the name Grok free in the app. Did Grok. Yeah. Exactly. And that's the giveaway that you have Grok free. And if it says Grok [2], then it Grok free hasn't quite arrived for [you] yet. But we're working hard to roll this out today and then to even more people over the coming days.

Yeah. Make sure you update your phone app too, where you actually going to get all the tools we showcase[d] today with the thinking mode, with the deep search. So yeah, really looking forward to all the feedback[]s you have. Yeah. I think we should emphasize that this is kind of a beta, like meaning that you should expect some imperfections at first. But we will improve it rapidly almost every day. In fact, every day, I think it'll get better. So if you want a more polished version, I'd like maybe [wait a] week, but expect improvements literally every day. And then we're also going to be providing a voice interaction. So you can have conversational. In fact, I was trying it earlier today. It's working pretty well, but these are a bit more polished. The sort of way we can just literally talk to it like you're talking to a person.

That's awesome. It's actually one of the best experiences of Grok. But that's probably about a week away. Yeah. So what's our set? I think we might have some audience questions. Sure. Yeah, right? All right. Let's take a look. Yeah, let's take a look. The audience from the [X] Platform. Yeah. Cool. So the first question here is, when [is the] Grok voice assistant? When is it coming out?

As soon as possible, just like Elon said, just a little bit of polishing away from being reach[ed] to everybody, obviously, it's going to be released in an early form, and we're going to rapidly iterate on that. Yeah. And the next question is, when will Grok3 be in the API? So this is coming in the Grok3 API with both the reasoning models and deep search is coming away in the coming weeks. We're actually very excited about the enterprise use cases of all these additional tools that Grok has access to, and how the test time compute and tool use can actually really accelerate all the business use cases.

Another one is, will voice mode be native or text to speech? So I think that means is it going to be one model that is understanding what you say and then talking back to you or is it going to be some system that has text to speech inside of it? In the good news is it's going to be one model, not a variant of Grok3, that we're going to release, which basically understands what you're saying, and then generates the audio directly from that. So very much like Grok3 generates text, that model generates audio. And that has a bunch of advantages. I was talking to it earlier today and it said, "Hi, I go," reading my name from probably from some text that it had. And I said, "No, my name is Igor." And it remembered that. So it could continue to say, "Igor," just like a human word. And you can't achieve that with text to speech.

So here's a question for you. Pretty spicy. Elon, is Grok a boy or a girl? And how they sing? Grok is whatever you want it to be. Yeah. Are you single? Yes. All right. The shop is open. So I don't see people are going to fall in love with Grok. It's like 1,000%. Probably. The next question, will Grok be able to transcribe audio into text?

Yes. So we'll have this capability in both the app and also the API. We found that Grok should just be your personal assistant, looking on your shoulder and follow you along the way. Learn everything. You have learned and really helped here to understand the world better, become smarter every day. Yeah. The voice about Grok isn't simply just voice to text. It understands tone, inflection, pacing, everything. It's wild. I mean, it's like talking to a person. OK. Yup. So any plans for conversation memory?

Yeah. Absolutely. We're working on it right now. I agree for that. That's right. Let's see. What are the other ones? So what about the DM features? So if you have personalizations, then if you have Grok remembers your previous interactions, should it be one Grok or multiple different Groks?

It's up to you. You can have one Grok or many Groks. I suspect we will probably have more than one. Yeah. I won't have a doctor Grok. Yeah. The GrokDoc. That's right. Great. So in the past, we've open-source Grok1. Somebody is asking us, are we going to do it again? What Grok2?

Yeah. I think a general approach is that we will open-source the last version when the next version is fully out. Like when Grok3 is mature and stable, which is probably within a few months, they will open-source Grok2. OK. So we'll probably have time for one last question. What was the most difficult part about working on this project? I assume Grok3 and what [are you] most excited about?

So I think me looking back, getting the whole model training on 100K H100 coherently, that's almost like battling against the final boss of the universe, the entropy. Because at any given time, you can have a cosmic ray that beaming down and flip a bit in your transistor. And now the entire gradient update, if it's meant to be sub[tracted], the entire gradient update is out of whack. And now you have 100,000 of those, and you have to orchestrate them every time at any given time any of the GPUs can go down. Yeah. I mean, it's worth breaking down. How were we able to get the most powerful training cluster operational within 122 days? Because we started off. We actually weren't intending to do a data center ourselves. We went to the data center providers and said how long would it take to have 100,000 GPUs operating coherently in a single location. And we got time frames from 18 to 24 months. So we're like, well, 18 to 24 months, that means losing as a certainty. So the only option was to do it ourselves. So if you break down the problem, guess I'm doing like reasoning here with like, make sure to think.

One single training though. Yeah, exactly. So what we needed a building, we can't build a building. So we must use an existing building. So we looked for basically for factories that had been abandoned, but the factory was in good shape. Like the company had gone bankrupt [or] something. So we found an Electrolux factory in Memphis. That's why it's in Memphis. Home of Elvis. And also one of the oldest, I think, was the capital of ancient Egypt. And it was actually very nice factory that, for whatever reason, that Electrolux had left. And that gave us shelter for the computers. Then we needed power. We needed at least 120 megawatts at first, but the building only had 15 megawatts. And ultimately, for 200,000 megawatts, 200,000 GPUs, we needed a quarter gigawatt. So we initially, at least, [rented] a whole bunch of generators. So we have generators on one side of the building. Just trailer after trailer of generators. Until we could get the utility power to come in. And then we also needed cooling. So on the other side of the building, it was just trailer after trailer of cooling. So we released about a quarter of the mobile cooling capacity of the United States on the other side of the building. Then we needed to get the GPUs all installed. And they're all liquid cooled. So in order to achieve the density necessary, this is a liquid cooled system. So we had to get all the plumbing for the liquid cooling. Nobody had ever done a liquid cooling data center at scale. So this was an incredibly dedicated [feat] by a very talented team to achieve that outcome.

I mean, I think now it's going to work. Nope. The issue is that the power fluctuations for [a] GPU cluster are dramatic. So it's like a giant symphony that is taking place. Like I mentioned, having a symphony with 100,000 or 200,000 participants in the symphony and the whole orchestra will go quiet and loud in 100 milliseconds. And so this caused massive power fluctuations, which then caused the generators to lose their minds. And they weren't expecting this. So to buffer the power, we then used Tesla megapacks to smooth out the power. So the megapacks had to be reprogrammed. So with the XAI, we were working with Tesla. So we reprogrammed the megapacks to be able to deal with these dramatic power fluctuations to smooth out the power [so] that [the] computers could actually run properly. And that worked [was] quite tricky. And then, but even at that point, you still have to make the computers all communicate effectively. So all the networking had to be solved. And debugging the [Brazilian] network cables, debugging, [at] 4 in the morning, for like we solved it like 4. Roughly 4.20 AM. We figured out like there's some, well, there were a whole bunch of issues. One of those was like a bios mismatch. The bios was not set up correctly. We had to have [fewer] PCI outputs between two different machines, one that was working.

Yeah. One that was not working. Many, many other things. Exactly. This would go on for a long time if we actually [listed all] things. But it's not like, oh, we just magically made it happen. You had to break down the problem just like Grok does for reasoning into the constituent elements and [in]stall each of the constituent elements in order to achieve a coherent training cluster in a period of time that is a small fraction of what anyone else could do it in. And then once the training cluster was up and running, and we could use it, now we have to make sure that it actually stays healthy throughout, which is [a] giant challenge. And then we had to get every single detail of the training right in order to get a Grok [3] level model, which is actually really, really hard. So we don't know if there are any other models out there that have Grok [3] capabilities. But whoever trains a model better than Grok [3] has to be extremely good at the science of deep learning at every aspect of the engineering. So it's not so easy to pull this off. And this is now going to be the last cluster we built in the last model we trained. We've already started work on the next cluster, which will be about five times the power. So instead of a quarter gigawatt, roughly 1.2 gigawatts, what's the back to the future was? What's the power? Does it back to the future car? Anyway, the back to the future power car. It's just roughly in that order, I think. And these will be the GB200 slash 300 cluster. It won't be the most powerful [training] cluster in the world. So we're not stopping here. And our [reasoning] model is going to continue [to] improve by accessing more tools every day.

So we're very excited to share any of the upcoming results with you all. The thing that keeps us going is basically being able to give Grok free to you and then seeing the usage go up, seeing everybody enjoy. No, Grok, that's what really gets us up in the morning. So.

Yeah. Yeah, thanks for tuning in. Awesome. Thanks, guys.

Hey, Dr. [Aikusup]. Can you hear me? I'm so excited to finally meet you. I can't wait to chat and learn more about each other. I'll talk to you soon.

ブログ一覧に戻る