Toile
En tant que praticien de l’apprentissage automatique, l’accès à des ensembles de données de qualité est crucial pour la formation et l’évaluation de vos modèles. Bien qu’il existe de nombreuses sources d’ensembles de données payants, trouver des ensembles de données gratuits de haute qualité pour l’apprentissage automatique peut prendre du temps et des efforts.
Dans cet article, nous explorerons certains des meilleurs endroits pour trouver des ensembles de données gratuits pour l’apprentissage automatique et fournirons des conseils pour évaluer leur adéquation à votre projet. Que vous soyez un débutant ou un ingénieur expérimenté en apprentissage automatique, ce guide vous aidera à trouver les ensembles de données gratuits pour l’apprentissage automatique dont vous avez besoin pour faire passer vos projets au niveau supérieur.
Qu’est-ce qu’un jeu de données ?
Les ensembles de données sont des ensembles de données à analyser. Il peut être aussi grand ou petit que vous le souhaitez et contenir toutes les informations dont vous avez besoin pour apprendre. Les ensembles de données sont utilisés dans de nombreux domaines, notamment la science des données, l’apprentissage automatique et la recherche commerciale. Vous pouvez trouver des ensembles de données sur Internet ou créer les vôtres en collectant des données provenant de diverses sources.
Les ensembles de données sont souvent utilisés pour former des algorithmes d’apprentissage automatique et faire des prédictions basées sur des données passées. Ils peuvent également être utilisés pour l’analyse exploratoire des données (EDA), qui consiste à examiner vos données en détail pour découvrir des modèles et des relations entre différentes variables.
Recherche de données Google
1. Recherche de jeu de données Google
Google Dataset Search est un outil de Google qui vous aide à trouver des ensembles de données gratuits pour l’apprentissage automatique. C’est un excellent moyen d’en savoir plus sur un nouvel ensemble de données et de voir comment il peut être utilisé pour votre prochain projet.
Vous pouvez rechercher des ensembles de données par sujet, source ou langue. De plus, vous pouvez filtrer vos résultats de recherche par format de fichier, licence et type de données (disponibles publiquement ou non).
Lorsque vous trouvez un ensemble de données qui vous intéresse, cliquez sur le bouton « Afficher » pour voir plus d’informations à son sujet. Cela inclut le nombre de téléchargements ainsi que sa taille en gigaoctets (Go), mégaoctets (Mo), kilooctets (Ko) et octets (B). De plus, vous verrez une brève description du contenu de l’ensemble de données afin que vous puissiez décider s’il répond à vos besoins.
Centre de données
2. Centre de données
Datahub.io est une source centralisée d’ensembles de données ouvertes. Il donne accès à toutes sortes de données, y compris la bourse et la finance. C’est également un excellent endroit où aller si vous souhaitez trouver des ensembles de données ouverts liés à des sujets spécifiques, comme l’environnement ou la sécurité publique.
Le site a permis à quiconque de commencer à utiliser ses ressources. Vous pouvez rechercher par mot-clé, catégorie et type de licence, il est donc facile de trouver un jeu de données adapté à votre projet. Si vous avez besoin d’aide pour trouver ce dont vous avez besoin sur la page principale du site, il existe des collections dans lesquelles vous pouvez rechercher ou demander des données personnalisées à l’équipe.
Kagglé
3. Kaggle
Kaggle est une plate-forme qui permet aux utilisateurs de créer des compétitions, puis de collecter des données auprès d’utilisateurs désireux de partager leurs données et de contribuer à la compétition. Les concours Kaggle peuvent être utilisés pour obtenir des informations sur les performances de votre algorithme, ou ils peuvent être utilisés comme un moyen d’obtenir de nouvelles idées pour les algorithmes.
Les utilisateurs peuvent également utiliser la plateforme Kaggle pour trouver de nouveaux ensembles de données et les explorer. Le site Web répertorie toutes sortes d’ensembles de données et vous permet de voir comment d’autres utilisateurs les ont explorés. Cela peut être une excellente ressource si vous souhaitez en savoir plus sur la façon dont d’autres personnes ont abordé votre ensemble de données ou si vous cherchez de l’inspiration pour votre exploration.
Data.Gov
4. Data.Gov
Data.Gov est un site Web du gouvernement américain qui contient des données sur tout ce à quoi vous pouvez penser, y compris des informations sur l’économie, l’éducation et la santé. Le site est mis à jour tous les mois avec de nouveaux ensembles de données, c’est donc un excellent point de départ si vous recherchez des données opportunes et pertinentes.
Vous pouvez trouver des ensembles de données ici en effectuant une recherche par catégorie ou par mot-clé. Vous pouvez également naviguer par département ou par sujets spécifiques, comme l’énergie ou la politique. Vous pouvez également rechercher des ensembles de données particuliers sur la page d’accueil de Data.Gov.
Le site est organisé en plusieurs sections, dont « Gouvernement ouvert », « Développement » et « Santé et services sociaux ». Chaque section contient une liste d’ensembles de données disponibles via l’API de Data.Gov, ce qui signifie qu’ils peuvent tous être utilisés gratuitement dans vos projets.
EarthData
5. EarthData
EarthData est un référentiel de données qui contient plus de 3 000 ensembles de données liés aux sciences de la Terre et au changement climatique. Le site est géré par la NASA et la NOAA, qui fournissent des données géospatiales de haute qualité pouvant être utilisées à la fois pour la recherche universitaire et les applications commerciales.
Le site Web EarthData permet aux utilisateurs d’explorer divers types d’ensembles de données sur une carte, y compris des enregistrements de température du monde entier, des images satellite de la surface de la Terre et des enregistrements historiques des conditions océaniques. Le site comprend également une vaste collection de cartes et de graphiques qui peuvent être utiles pour ceux qui recherchent des informations spécifiques sur le changement climatique ou d’autres aspects des sciences de la terre.
6. Référentiel d’apprentissage automatique UCI
L’UCI Machine Learning Repository est une ressource en ligne qui fournit des ensembles de données gratuits pour l’apprentissage automatique. Il fournit des centaines d’ensembles de données que vous pouvez utiliser pour démarrer des projets d’apprentissage automatique et de science des données. Vous pouvez parcourir les collections par catégorie ou effectuer une recherche par mot-clé.
Le référentiel a été créé il y a trente ans et avait une solide réputation en tant que source de référence pour les données d’apprentissage automatique parmi les universitaires, les éducateurs et les étudiants.
GHO
7. Dépôt de données de l’Observatoire mondial de la santé
Le référentiel de données de l’Observatoire mondial de la santé est une collection de données de l’Organisation mondiale de la santé (OMS). Il contient des informations sur plus de 200 maladies, y compris leurs causes et effets et leur répartition géographique.
L’OMS vise à utiliser ce référentiel pour améliorer la santé mondiale en fournissant un emplacement centralisé aux professionnels de la santé, aux chercheurs et aux décideurs pour accéder aux données sur les épidémies dans le monde.
IBF
8. Institut britannique du cinéma
Le British Film Institute (BFI) est une organisation caritative de l’industrie cinématographique qui collecte des données sur les films britanniques depuis les années 1930. Le BFI publie les résultats de ses recherches dans plusieurs formats, notamment des feuilles de calcul, des fichiers PDF et des fichiers CSV.
Le BFI fournit des statistiques sur tous les aspects de la production et de la distribution de films au Royaume-Uni, y compris des informations sur les films produits au Royaume-Uni sortis dans les cinémas et ceux diffusés à la télévision. Ils fournissent également des données sur le nombre de personnes qui fréquentent les cinémas au Royaume-Uni et à l’étranger.
CERN
9. Portail de données ouvertes du CERN
Le portail de données ouvertes du CERN est un excellent point de départ si vous recherchez des ensembles de données gratuits pour l’apprentissage automatique liés à la science et à la technologie. Le portail comprend des ensembles de données de l’Organisation européenne pour la recherche nucléaire ou CERN.
En outre, le portail contient une longue liste d’ensembles de données contenant des informations sur la physique des particules, la physique nucléaire, l’ingénierie et de nombreux autres sujets.
Explorateur de données sur la criminalité du FBI
10. Explorateur de données sur la criminalité du FBI
L’explorateur de données sur la criminalité du FBI est une excellente ressource pour quiconque souhaite explorer les données sur la criminalité. Il est facile à utiliser et fournit un large éventail d’informations sur les crimes aux États-Unis.
L’outil vous permet de visualiser les données par état ou par année. De plus, vous avez la possibilité de choisir entre différents types de crimes. Vous pouvez voir combien de crimes ont été signalés dans chaque état ou comté au fil du temps. Vous pouvez également voir quelles infractions sont les plus courantes dans chaque zone et comparer les taux de différents crimes à différents endroits.
11. Data.world
Data.world est une communauté de passionnés de données où vous pouvez trouver des ensembles de données gratuits à utiliser pour votre prochain projet d’analyse de données. Que vous recherchiez quelque chose de spécifique ou que vous souhaitiez parcourir les ensembles de données disponibles, cette plateforme a quelque chose pour tout le monde.
Data.world n’est pas seulement une source d’ensembles de données gratuits pour l’apprentissage automatique, c’est aussi une communauté où les gens peuvent se connecter et collaborer sur des projets. Lorsque vous trouvez un ensemble de données que vous souhaitez utiliser dans votre projet, il est facile de le partager avec d’autres utilisateurs sur la plateforme afin qu’ils puissent vous aider à créer et tester vos modèles.
Données sur les trajets en taxi à New York
12. Données sur les trajets en taxi à New York
NYC Taxi and Limousine Commission (TLC) dispose d’importants ensembles de données que vous pouvez utiliser pour votre prochain projet. Le TLC réglemente le transport terrestre de NYC, y compris les taxis et les limousines.
L’ensemble de données contient des informations sur les trajets en taxi effectués dans la ville, y compris la date et l’heure du trajet et où il a commencé et s’est terminé. Vous pouvez également savoir s’il s’agissait d’un aller simple ou d’un aller-retour, combien de temps il a fallu et combien de passagers se trouvaient dans chaque taxi pendant le trajet.
GitHub
13. GitHub : ensembles de données publics géniaux
Vous pouvez utiliser les ensembles de données gratuits pour l’apprentissage automatique à partir de nombreux projets hébergés sur GitHub, qui est la norme de l’industrie pour les référentiels de code en ligne collaboratifs et open source. Un projet nommé Awesome Public Datasets a été créé exclusivement pour les ensembles de données publics.
Comme Kaggle, les ensembles de données de GitHub sont une fonctionnalité bonus de la fonction principale du site. L’objectif principal de GitHub est de servir de service de référentiel de code. Bien qu’il n’ait pas la même variété d’ensembles de données gratuits pour l’apprentissage automatique que Google ou Kaggle, il peut toujours s’agir d’une ressource précieuse.
Cependant, GitHub n’est pas un référentiel de données explicitement conçu pour la découverte d’ensembles de données, vous devrez donc peut-être être un peu inventif pour trouver les ensembles de données gratuits pour l’apprentissage automatique que vous recherchez.
Conclusion
En conclusion, trouver des ensembles de données gratuits de qualité pour l’apprentissage automatique est essentiel pour tout projet d’apprentissage automatique. À l’aide des ressources et des conseils décrits dans cet article, vous pouvez rapidement localiser et évaluer les meilleurs ensembles de données gratuits pour l’apprentissage automatique afin de vous aider à atteindre vos objectifs.
Alors ne laissez pas un manque de données vous retenir – commencez dès aujourd’hui à explorer ces ensembles de données gratuits pour l’apprentissage automatique et portez votre projet vers de nouveaux sommets.
Ce contenu est exact et fidèle au meilleur de la connaissance de l’auteur et ne vise pas à remplacer les conseils formels et individualisés d’un professionnel qualifié.
© 2022 Hassan