1016万行 で 10億文字 あることがわかります。 サイズは 3.1GB です。 3. Wikipediaの日本語コーパスの利用 SentencePieceの学習を行います。 「Google Colab」はRAMが足りなかったので、ローカルマシンのAnacondaで学習しました。 (1) SentencePieceのインストール。
日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。 データセットgraelo/wikipediaを使用 Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する