Le stockage IA commence par les données

Le meilleur stockage pour des charges de travail d'IA n'est pas simplement le plus rapide et le plus volumineux. À mesure que les entreprises passent de la phase des projets pilotes à celle de la production, elles ont besoin d'un socle de données qui peut placer les données à proximité des charges de travail d'IA, traiter des informations éparses et non étiquetées pour les préparer à l'IA, et protéger les données pendant l'entraînement, qu'il s'agisse de flux de travail d'entraînement, d'inférence, de RAG, d'analyse ou agentiques.

L'IA change la donne en matière de stockage
Les raisons pour lesquelles les stratégies de stockage traditionnelles sont insuffisantes
La préparation des données est le premier test en matière de stockage pour l'IA
Les performances de l'IA dépendent des bonnes données, au bon endroit
Rôle de l'AIDP : Placer, Traiter et Protéger
Pourquoi la modularité est importante pour l'infrastructure de données de l'IA
La gouvernance et la sécurité ne peuvent pas être ajoutées ultérieurement
Le socle de données de Dell AI Factory with NVIDIA
Élaboration d'un socle de données pour une IA évolutive
Questions fréquemment posées (FAQ)

L'IA change la donne en matière de stockage

Depuis bien longtemps, le stockage est jugé à l'aune de sa capacité à bien conserver, transférer et protéger les données. L'IA fait passer ces opérations à un autre niveau, car les données d'entreprise doivent gérer plusieurs types de charge de travail sans que les équipes soient obligées de recréer le contexte à chaque fois.

Dans l'épisode eSpeaks intitulé « Le problème des données qui pourrait faire échouer votre IA », Vrashank Jain, Responsable produit pour Dell AI Data Platform, a clairement résumé le défi : « Ce n'est plus un problème de modèle. C'est véritablement une question de préparation des données ».

Pour de nombreuses organisations, l'obstacle en matière d'IA n'est pas un manque de données. Les équipes ont d'abord besoin d'une méthode fiable pour identifier, préparer, gouverner et diffuser ces données sous des formes utilisables par les systèmes d'IA. Inspirées par la conception de référence de la Plateforme de données d'IA de NVIDIA, les plateformes de données d'IA confèrent à ces tâches une structure plus claire.

Les raisons pour lesquelles les stratégies de stockage traditionnelles sont insuffisantes

Les architectures de stockage conventionnelles ont été conçues pour des charges de travail d'entreprise prévisibles. L'IA génère un autre type de pression, car les données peuvent avoir besoin de parcourir plusieurs systèmes avant de devenir utiles pour un modèle ou une application.

Les données d'entreprise sont souvent réparties dans plusieurs environnements hybrides, et chaque environnement traite les données de manière différente. Un stockage autonome, des lacs de données, des bases de données vectorielles et des outils d'orchestration peuvent chacun résoudre une partie du problème des données pour l'IA. Cependant, lorsqu'ils fonctionnent isolément, les « coutures » qui les relient peuvent créer des silos, des pipelines hétérogènes, des lacunes en matière de gouvernance et une complexité opérationnelle.

Ces coutures deviennent encore plus visibles à mesure que les cas d'utilisation de l'IA mûrissent. Les pipelines d'entraînement, les systèmes de récupération et les flux de travail agentiques ont chacun des exigences différentes en matière de données, qu'il s'agisse d'un accès rapide, d'index courants, de réécriture, d'auditabilité ou de contrôles d'accès. Lorsque ces exigences dépendent de chaînes d'outils différentes, les équipes passent plus de temps à coordonner les systèmes qu'à faire progresser le cas d'utilisation.

Les projets pilotes risquent d'occulter ces faiblesses, car les petites équipes peuvent toujours avoir recours à des solutions de contournement manuelles. À l'échelle de l'entreprise, cette même approche vole en éclats, à moins que l'environnement de données ne soit capable de prendre en charge des flux de travail reproductibles et gouvernés.

Parmi les signaux d'alerte qui indiquent qu'un environnement de stockage d'IA n'est pas encore prêt pour entrer en production, on peut citer : des pipelines de données fragiles, une indexation ou un enrichissement manuel, des disparités dans la qualité des données entre les sources, un traçage confus des données, des lacunes dans l'historique d'accès et une sous-utilisation des GPU due à la lenteur de la transmission des données.

Comparaison entre stockage traditionnel et AIDP pour les charges de travail d'IA

Exigence	Stockage traditionnel / outils adjacents	Approche AIDP
Rôle principal	Stockage ou gestion des données dans des systèmes distincts	Prise en charge des données sur l'ensemble du cycle de vie de l'IA
Préparation des données	Souvent effectuée via une préparation manuelle ou des outils disparates	Connecte le stockage avec la préparation, le contexte et la gouvernance
Performance	Optimisée pour des charges de travail prévisibles	Répond aux besoins en matière de débit, de concurrence, de circulation des données et de proximité pour le calcul
Gouvernance	Appliquée sur des systèmes distincts	Intégrée à la manière dont les données sont préparées et utilisées
Échelle	Peut fonctionner pour des projets pilotes ou des cas d'utilisation restreints	Prend en charge des flux de travail reproductibles pour un déploiement à l'échelle de l'entreprise

La préparation des données est le premier test en matière de stockage pour l'IA

Les données dont vous disposez ne sont pas nécessairement utilisables pour l'IA. Les équipes doivent avoir suffisamment de contexte pour comprendre l'origine des données, et déterminer si elles sont d'actualité et peuvent être utilisées pour le cas d'utilisation envisagé.

Lorsque ce contexte est absent, les équipes peuvent passer des semaines à résoudre des questions de base avant qu'un projet ne prenne son élan. Des fondements robustes en matière de catalogage et de gouvernance contribuent à la réduction des délais, car les équipes peuvent déterminer si des données sont utilisables avant qu'un projet ne commence à stagner.

Pour les données éparses ou non étiquetées, la première étape consiste à rendre les informations découvrables sans que les équipes soient obligées de recréer manuellement le contexte. La plateforme de données d'IA de Dell avec NVIDIA soutient ce travail en aidant les organisations à organiser, étiqueter, indexer, gouverner et protéger les données dans les environnements sur site, cloud, périphériques, d'application et de pipeline d'IA.

Les performances de l'IA dépendent des bonnes données, au bon endroit

Le placement de la charge de travail d'IA doit commencer par la couche de données : où se trouvent-elles, quelle est leur sensibilité, avec quel degré de rapidité la charge de travail en a-t-elle besoin et est-ce que leur déplacement augmentera les coûts, la latence ou le risque de gouvernance ?

Vrashank Jain a directement associé le problème à l'utilisation des GPU : « les GPU sont très rapides, mais uniquement s'ils sont alimentés rapidement ».

Lorsque les ressources de calcul sont en attente de données, les organisations risquent de sous-utiliser certaines des infrastructures les plus coûteuses de leur pile d'IA. Les performances dépendent de l'emplacement des données, de leur circulation et de leur proximité avec la charge de travail.

Charge de travail d'IA	Exigences en matière d'infrastructure de données
Entraînement	Accès à haut débit à de grands ensembles de données
Affinement	Données sélectionnées, gouvernées et spécifiques à un domaine, avec un traçage clair
Inférence	Récupération à faible latence
RAG	Indexation, actualisation et accès au contenu source
Analyse	Numérisations à grande échelle et accès aux données historiques
Flux de travail agentiques	Réécriture, auditabilité et contrôles d'accès

Le placement des charges de travail doit suivre les données. Le déplacement de grands ensembles de données entre des environnements cloud, de centre de données et périphériques peut compliquer la gestion des performances, des coûts et de la gouvernance. Pour les données sensibles ou volumineuses, le rapprochement des ressources de calcul du stockage peut s'avérer plus efficace que le déplacement des données de manière répétée entre différents environnements.

Rôle de l'AIDP : Placer, Traiter et Protéger

L'AIDP offre aux entreprises un moyen d'évaluer une infrastructure de données d'IA selon trois fonctions principales : Placer, Traiter et Protéger. Dell utilise ce cadre pour aider les organisations à déterminer si leurs données peuvent soutenir des cas d'utilisation d'IA tout au long du cycle de vie.

Pilier AIDP	Ce que cela signifie pour les charges de travail d'IA
Placer	Les données résident là où les charges de travail d'IA peuvent y accéder efficacement, que la priorité soit l'entraînement, l'inférence, l'analyse ou la récupération.
Traiter	Les données structurées et non structurées peuvent être indexées, classées, étiquetées, enrichies et préparées pour des modèles et des applications, avec une accélération basée sur cuVS qui prend en charge des flux de travail de recherche et de récupération de vecteurs plus rapides.
Protéger	Les contrôles d'accès, la conformité, le chiffrement, la résilience et l'auditabilité restent liés aux données tout au long de leur parcours dans les flux de travail d'IA.

La plateforme de données d'IA de Dell avec NVIDIA applique ce cadre à une architecture modulaire et prête pour l'hybridation qui connecte la couche de données à l'infrastructure nécessaire à l'IA d'entreprise.

Pourquoi la modularité est importante pour l'infrastructure de données de l'IA

Rares sont les entreprises qui abordent la modernisation par l'IA en partant de zéro. La plupart d'entre elles ont besoin que leurs nouvelles capacités d'IA puissent fonctionner avec des environnements de données existants sans avoir à tout reconstruire.

La modularité permet aux différentes parties de l'architecture d'évoluer sans créer de dépendances inutiles dans l'ensemble du système. Une modification du stockage, du traitement ou de la protection ne doit pas créer de goulots d'étranglement dans les autres domaines.

C'est là que l'AIDP peut contribuer à réduire les frais opérationnels : elle offre aux équipes une manière plus coordonnée de gérer le stockage, le traitement, la gouvernance et la protection sans avoir à recréer la stratégie de données à chaque nouvelle charge de travail d'IA.

Des normes ouvertes sont également importantes dans la mesure où les exigences en matière d'IA continuent d'évoluer. La plateforme de données d'IA de Dell avec NVIDIA prend en charge des normes telles qu'Iceberg et Delta Lake, offrant aux équipes plus de flexibilité à mesure que les environnements de données évoluent.

L'ouverture et l'intégration ne sont pas antinomiques. Pour une IA en production, les entreprises ont besoin de normes et d'outils ouverts pour plus de flexibilité, ainsi que d'une infrastructure validée qui réduise la charge liée au fonctionnement fiable et à grande échelle des charges de travail d'IA.

La gouvernance et la sécurité ne peuvent pas être ajoutées ultérieurement

Les systèmes d'IA utilisent souvent des données d'entreprise sensibles, qu'il s'agisse de dossiers clients ou de propriété intellectuelle. À mesure qu'elles s'intègrent davantage aux processus métier, une gouvernance insuffisante peut engendrer des risques réels.

Les équipes ont besoin d'une visibilité suffisante pour comprendre comment les données circulent dans un flux de travail d'IA lorsqu'un problème survient.

Un système RAG qui fait remonter des documents pertinents présente un profil de risque différent de celui d'un flux de travail automatisé qui peut mettre à jour des enregistrements ou déclencher un processus métier. À mesure que les systèmes d'IA passent de la récupération à l'action, les organisations peuvent avoir besoin de journaux inviolables, de limites précises à ce que les agents peuvent lire, écrire et exécuter, et d'une protection des données qui suit les informations sensibles tout au long du pipeline d'IA.

La sécurité et la résilience doivent être intégrées à l'architecture des données de l'IA, et non placées à côté de celle-ci.

Le socle de données de Dell AI Factory with NVIDIA

Dell AI Factory with NVIDIA commence par les résultats qu'une entreprise souhaite obtenir en matière d'IA, puis connecte les données, l'infrastructure, les logiciels et les services nécessaires à la mise en production de ces résultats. Au sein de cette architecture plus large, la plateforme de données d'IA de Dell avec NVIDIA fonctionne comme la couche de données permettant de s'assurer que les données alimentant les charges de travail d'IA sont stockées là où elles doivent l'être, préparées et gérées pour l'utilisation du modèle, et protégées tout au long de leur cycle de vie.

L'accélération NVIDIA prend en charge les tâches d'IA gourmandes en calcul, qu'il s'agisse de charges de travail d'entraînement, d'inférence ou de récupération. Parallèlement, la couche d'orchestration de Dell permet de connecter ces fonctionnalités à des flux de travail validés que les équipes d'entreprise peuvent exploiter et mettre à l'échelle.

Élaboration d'un socle de données pour une IA évolutive

L'IA a changé le rôle du stockage d'entreprise. À mesure que les organisations passent de la phase de projet pilote à celle de la production, le stockage doit aider les équipes à rendre les données prêtes, accessibles, gouvernées et protégées tout au long du cycle de vie de l'IA. La plateforme de données d'IA de Dell avec NVIDIA offre aux entreprises l'opportunité d'aborder ce défi comme s'il s'agissait d'une décision relative à une acquisition de plateforme de données, et non comme un simple achat de stockage autonome.

Le résultat : un socle capable de prendre en charge l'évolution des charges de travail d'IA tout en s'intégrant à l'architecture plus large de Dell AI Factory with NVIDIA afin d'obtenir des résultats d'IA en production.

Questions fréquemment posées (FAQ)

Quel est le meilleur stockage pour des charges de travail d'IA ?

Le meilleur stockage pour des charges de travail d'IA est un socle de données capable de stocker, de traiter, de protéger et de diffuser les données tout au long du cycle de vie de l'IA. Les entreprises doivent évaluer si leur infrastructure de stockage et de données peut prendre en charge les flux de travail d'entraînement, d'affinement, d'inférence, de RAG, d'analyse et agentiques avant de comparer uniquement la capacité, le débit ou le coût.

Mes données sont réparties dans de nombreux endroits et ne sont pas étiquetées. Comment Dell peut-il m'aider ?

La plateforme de données d'IA de Dell avec NVIDIA peut aider les organisations à rendre des données éparses plus utilisables pour l'IA en facilitant l'organisation, l'étiquetage, l'indexation, la gouvernance et la protection des données dans des environnements sur site, cloud, périphériques, d'application et de pipeline d'IA. Les équipes peuvent ainsi identifier, préparer et fournir des données pour des flux de travail d'entraînement, d'inférence, de RAG, d'analyse et agentiques.

Quels sont les avantages d'une collaboration avec Dell pour un déploiement d'IA d'entreprise ?

Dell aide les organisations à aborder l'IA d'entreprise comme un défi architectural, et non comme un simple achat d'infrastructure. Dell AI Factory with NVIDIA offre aux équipes une méthode coordonnée pour déployer des cas d'utilisation de l'IA, en mettant l'accent sur les performances, la gouvernance et l'évolutivité.

Comment les entreprises peuvent-elles réduire les coûts opérationnels liés au déploiement de l'IA à grande échelle ?

Les frais opérationnels augmentent souvent lorsque les équipes assemblent trop de systèmes disparates. Une AIDP peut alléger cette charge en offrant aux organisations une méthode plus coordonnée pour gérer les données dans les flux de travail d'IA.

Un assistant de connaissances peut-il fonctionner sans envoyer de données vers le cloud public ?

Oui, mais cela dépend de l'architecture. Pour les données d'entreprise sensibles, les organisations peuvent utiliser une stratégie de localisation des données qui consiste à conserver les informations au plus près de l'infrastructure sur site ou des environnements contrôlés, mais qui prend tout de même en charge la récupération et la recherche basée sur l'IA.

Comment les organisations peuvent-elles créer un assistant de connaissances sécurisé sur site avec la RAG ?

Un assistant de connaissances sécurisé basé sur la RAG a besoin d'un accès gouverné au contenu source, d'index à jour, d'autorisations claires et d'une auditabilité. Une plateforme de données compatible avec l'IA peut répondre à ces exigences sans forcer le transfert d'informations sensibles vers des environnements non gérés.

Prêt à faire sortir l'IA du stade de l'expérimentation pour qu'elle ait un impact concret sur l'entreprise ? Explorez le Guide sur l'IA évolutive destiné aux entreprises de TechRepublic afin de bénéficier de conseils pratiques sur la stratégie, les données, l'infrastructure, les cas d'utilisation et le retour sur investissement.

Le meilleur stockage pour des charges de travail d'IA ? Commencez par une plateforme de données d'IA