https ja.Wikipedia.org

Wikipediaの日本語コーパスの準備

1016万行で 10億文字あることがわかります。サイズは 3.1GB です。 3. Wikipediaの日本語コーパスの利用 SentencePieceの学習を行います。「Google Colab」はRAMが足りなかったので、ローカルマシンのAnacondaで学習しました。 (1) SentencePieceのインストール。

note

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。データセットgraelo/wikipediaを使用 Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する

Wikipediaの日本語コーパスの準備

Wikipedia日本語データセットの読み込み

現在のトレンド