1016万行 で 10億文字 あることがわかります。 サイズは 3.1GB です。 3. Wikipediaの日本語コーパスの利用 SentencePieceの学習を行います。 「Google Colab」はRAMが足りなかったので、ローカルマシンのAnacondaで学習しました。 (1) SentencePieceのインストール。
日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。 データセットgraelo/wikipediaを使用 Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
現在アクセス不可の可能性がある結果が表示されています。
アクセス不可の結果を非表示にする