Python Tutorial

Distribution de données d’apprentissage automatique Python


Diffusion des données

Plus tôt dans ce didacticiel, nous avons travaillé avec de très petites quantités de données dans nos exemples, juste pour comprendre les différents concepts.

Dans le monde réel, les ensembles de données sont beaucoup plus volumineux, mais il peut être difficile de collecter des données du monde réel, du moins à un stade précoce d’un projet.

Comment pouvons-nous obtenir des ensembles de données volumineuses ?

Pour créer de grands ensembles de données pour les tests, nous utilisons le module Python NumPy, qui est fourni avec un certain nombre de méthodes pour créer des ensembles de données aléatoires, de n’importe quelle taille.

Exemple

Créez un tableau contenant 250 flottants aléatoires entre 0 et 5 :

importer numpy

x = numpy.random.uniform(0.0, 5.0, 250)

impression(x)

Essayez-le vous-même »


Histogramme

Pour visualiser l’ensemble de données, nous pouvons dessiner un histogramme avec les données que nous avons collectées.

Nous allons utiliser le module Python Matplotlib pour dessiner un histogramme.

Découvrez le module Matplotlib dans notre tutoriel Matplotlib.

Exemple

Dessinez un histogramme :

importer numpy
importer matplotlib.pyplot en tant que plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Résultat:

Exemple d’exécution »

Histogramme expliqué

Nous utilisons le tableau de l’exemple ci-dessus pour dessiner un histogramme avec 5 barres.

La première barre représente le nombre de valeurs du tableau comprises entre 0 et 1.

La deuxième barre représente le nombre de valeurs comprises entre 1 et 2.

Etc.

Ce qui nous donne ce résultat :

  • 52 valeurs sont comprises entre 0 et 1
  • 48 valeurs sont comprises entre 1 et 2
  • 49 valeurs sont comprises entre 2 et 3
  • 51 valeurs sont comprises entre 3 et 4
  • 50 valeurs sont comprises entre 4 et 5

Note: Les valeurs du tableau sont des nombres aléatoires et n’afficheront pas exactement le même résultat sur votre ordinateur.

Distributions de données volumineuses

Un tableau contenant 250 valeurs n’est pas considéré comme très grand, mais vous savez maintenant comment créer un ensemble aléatoire de valeurs, et en modifiant les paramètres, vous pouvez créer l’ensemble de données aussi grand que vous le souhaitez.

Exemple

Créez un tableau avec 100 000 nombres aléatoires et affichez-les à l’aide d’un histogramme à 100 barres :

importer numpy
importer matplotlib.pyplot en tant que plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

Exemple d’exécution »


#Distribution #données #dapprentissage #automatique #Python

Articles similaires

Bouton retour en haut de la page