107. LLMをゼロから作るということ w/ Takahiro Omi

fukabori.fm - Un pódcast de iwashi

Categorías:

ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。 話したネタどのような大規模言語モデルと作ったのか?特徴は何か?データセットに何を使ったのか?日本語と英語とのバランスは?最終的なToken数は?事前学習モデルを作りたいとして、何から考えるのか?ノイズのクリーニングと、その方法今回活用したモデルアーキテクチャ(Llama)前回のアーキテクチャは GPT-NeoX今回の学習環境は?AWS Trainum 32コア x 16ノード学習にかかった時間は?学習時に大変だったこと・上手くいかなかったことは?学習中のチェックポイントとは何か?なぜ、Token生成が速いのか?手元でLLMを動かすときの一番のネックは?bit数を落とすFineTuningTokenizerとは何か?日本語の単語区切りはどのように考えるのか?今回のLLM作成のTokenizerは何を使ったのか?ビジネスドメインでのLLM評価ストックマーク株式会社のRecruitページ See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.