elles decrivent des descriptions qui peuvent etre observee mais ne peuvent etre calculees.
elles peuvent etre mesure et non simplement observe
web and social
machine
sensing
transaction
iot
structure
semi structure
non structure
documet-oriented
column-oriented
graph-based
key value
cleaning
normalization
transform
batch
real time
volume
variete
velocite
veracite
valeur
la rapidite a laquel la data est genere
exacitude des données
le big data se distingue par sa capacite à traiter des volumes massifs de données variées à grande vitesse.
methode utilise pour collecter des data brutes a partir de diverses sources
technique et technologies permettant de stocker des ensembles de donnees massif
transformation des data en elements visuel sgnificatifs
Apache (streaming & bach)
Amazon kinesis streaming
IBM Stream Analytics (streaming)
Google Cloud Dataflow ( streming)
designe uns categorie de BDD concues pour gerer de grande quantite de data dans le contexte du big data. Not Only SQL : Elle vont audela des bases de donnes traditionnelles utilisant SQL.
power bi
tableau
qlik
excel
hadoop est un framework logiciel open source concu pour le stockage et le traitement de tres grands volumes de data.
c'est un framework open source de traitement de data à grand echelle, particulirement adapte pour la big data.
SQL
OLAP
NoSQL
Graph
Document
est decrit comme un cadre permettant de stocker, lire, et analyser les data de streaming, ce qui en fait l'outil le plus adapté au traitement en temps reel parmi les options proposées.
est un service qui permet d'utiliser des ressources informatiques via internet sans avoir a posederet gerer physiquement ces infrastructure.
Amazon EMR est un service AWS specifiquement concu pour le traitement de grande quantite de data.
capture
process
store
analyze
use
sensorielle IoT
reseaux sociaux
data transactionnelles
app mobiles
trafic web
excel, dtabase vs vide, images, posts reseaux sociaux
lakes
warehouse
lake house
cloud
mark
data streaming (real time)
batch processing
la collecte doit etre ethique et respecter les reglementation (ex: rgpd)
la qualite et la fiabilite des data sont essentielles
les methodes de collecte doivent etre adapte aux objectifs d'analyse
le big data implique souvent une collecte continue et en temps reel.
traitement par lot
extraire, transform, telecharger
c'est un reglement europeen qui encadre le traitement des data personnelles dans l'UE, renforcant les droits des individus et les obligations des organisahions qui collectent et traite ces data.
Directive Privacy
CCPA
LGPD
PIPEDA
Loi informatique et liberte
Data protection Act 2018
HIPAA
est l'autorite admnistrative independante chargee de veiller a la protection des data personnelles en france.
biais algorithmique et risques de discrimination
surveillance et vie privee
securite des data
qualite et fiabilite des data
securite et confidentialite
la gouvernance des data dans le contexte du big data est un ensemble de politique, processus et technologiques visant a gerer efficacement de tres grands volumes de data varies et veloces, tout en assurrant la qualite, securite, conformite reglementaire et valeur pour l'entreprise, face aux defis specifique pose par l'echelle et la complexite des data massives.
Data analyst
Data scientist
data engineer
emergence de nouveaux metiers
evolution des metiers existants
nouvelles compeyences techniques
competences transverses valorisées
complexite de la gestion et de l'analyse des grandes masses de donnees.
l'importances de la formation et du developpement des competences
les defis techniques et organisationnels pour les entreprises
designe un reseau d'objets physique connectes a l'internet.
une data fabric est une architecture de data integre qui unifie, automatise et gere les donnees a travers differents sustemes et environnements.
c'est une approche qui consiste a traiter les data au plus pres de leurs sources, plutot que dans des centres de data centralise, afin de reduire la latence, ameliorer les performances et optimiser l'utilisation de bande passante.
c'est une approche de calcul qui utilise les principes de la mecanique quantique, notamment la superposition et l'intrication des qubits.
l'ia utilise le big data pour s'entrainer et generer des insights plus precis, tandis que le big data beneficie des capacites d'analyse avancees de l'ia pour extraire une valeur significative des data massives.
monopoles des donnees
defis ethique de l'ia avancee et d'utilisation abusive
systeme de transaction
dossier medicaux
BDD
navigation sur internet
Reseaux sociaux
IOT
Data generer par des machines
application mobile
recherche scientifique
data structuree
data semi steicture
data non structuee
Adaptation : aux technologies
nouvelles competences
Service de gestion du cloud
algorythme d'apprentissage automatique
aprentissage profond