dataset_statistics

Dataset Language Statistics

We provide statistics about the relative and absolute prevalence of different languages in the dataset mix used during training of GPT-3.

The concepts of "characters" and "words" can have different meanings in different languages, so any effort to count is imperfect, but our hope is that this provides helpful information to our readers nonetheless. To help support a wide variety of downstream analyses, we provide language-level summary counts broken down at the unicode-character level, whitespace-delineated word level, and document level.

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
languages_by_character_count.csv		languages_by_character_count.csv
languages_by_document_count.csv		languages_by_document_count.csv
languages_by_word_count.csv		languages_by_word_count.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dataset_statistics

dataset_statistics

README.md

Dataset Language Statistics

Files

dataset_statistics

Directory actions

More options

Directory actions

More options

Latest commit

History

dataset_statistics

Folders and files

parent directory

README.md

Dataset Language Statistics