Introduit en 1974, SQL ou Structured Query Language est un langage spécifique à un domaine utilisé dans la programmation et pour gérer les données contenues dans un système de gestion de base de données relationnelle ou pour le traitement de flux dans un système de gestion de flux de données relationnelles. C’est l’environnement de base de données le plus utilisé et le troisième langage le plus populaire.
SQL est le langage standard pour traiter les bases de données relationnelles dans les grandes entreprises technologiques telles que Facebook, Instagram, Accenture, Dell, etc. Essentiellement, le langage SQL est utilisé pour interroger une base de données.
Ci-dessous, nous examinons les huit requêtes SQL que tous les data scientists devraient connaître.
Clause Où
La clause WHERE filtre les enregistrements en fonction des instructions d’entrée. Les développeurs peuvent utiliser l’extraction uniquement des enregistrements qui remplissent une condition spécifiée. Ils peuvent utiliser l’opérateur * pour afficher l’intégralité du tableau et affiner les résultats à l’aide du mot-clé “WHERE” qui affiche des lignes spécifiques.
Syntaxe:
SELECT colonne1, colonne2, …
FROM nom_table
OÙ [condition]
Fonctions de date
Le format de date habituel est AAAA-MM-JJ, le format date-heure étant AAAA-MM-JJ HH:MI:SS. La fonction de données permet aux développeurs de trouver une date dans le présent ou le futur et de la disséquer en composants pour le mois, l’année, le jour ou une combinaison facilitant la conception et la maintenance de bases de données à grande échelle.
Syntaxe:
sélectionnez l’horodatage actuel ; – date et heure, norme ANSI SQL donc compatible entre les bases de données
sélectionnez obtenir date(); — date et heure, spécifiques à SQL Server
Jointures SQL
Une clause JOIN combine des lignes de deux tables ou plus en fonction d’une colonne associée. Il existe quatre types de jointures en SQL : interne, gauche, droite et complète. La clause Inner Join crée une nouvelle table en combinant des lignes avec des valeurs correspondantes dans deux tables ou plus. La jointure droite renvoie tous les enregistrements de la table de droite correspondant à la table de gauche, et la jointure gauche renvoie tous les enregistrements de la table de gauche correspondant à la droite. Enfin, la jointure complète renvoie tous les enregistrements lorsqu’il existe une correspondance dans la table de gauche ou de droite.
Syntaxe pour la jointure interne :
SELECT nom_colonne(s)
DE table1
INNER JOIN table2
ON table1.nom_colonne = table2.nom_colonne ;
Sous-requêtes corrélées
Les sous-requêtes corrélées sont utilisées pour le traitement ligne par ligne et sélectionnent les données d’une table référencée dans la requête externe. La fonction fonctionne là où chaque sous-requête est exécutée une fois pour chaque ligne de requête externe. Cela permet aux développeurs de lire chaque ligne d’un tableau et de comparer leurs valeurs aux données associées. Une sous-requête corrélée est évaluée une fois pour chaque ligne traitée par l’instruction parent, telle que SELECT, UPDATE ou DELETE.
Syntaxe:
SELECT colonne1, colonne2, ….
DE table1 externe
Opérateur WHERE colonne1
(SELECT colonne1, colonne2
DE table2
OÙ expr1 =
externe.expr2);
Clause de cas
La clause CASE implémente la logique lorsque le développeur souhaite définir la valeur d’une colonne en fonction des valeurs des autres colonnes. La fonction passe par des conditions et renvoie une valeur lorsque la première condition est remplie. Cela fonctionne jusqu’à ce qu’il trouve une condition vraie, et si aucune condition n’est vraie, il renvoie la valeur dans la clause ELSE. La clause Case est similaire à l’instruction IF-ELSE dans Excel.
Syntaxe:
CAS
QUAND condition1 ALORS résultat1
QUAND condition2 ALORS résultat2
QUAND condition ALORS résultatN
SINON résultat
FIN;
Insérer des valeurs/lignes dans des tableaux
Cette requête permet aux développeurs d’insérer facilement plusieurs valeurs ou lignes dans une table avec une seule requête. L’insertion de valeurs dans une table est une opération DML (Data manipulation language) pour ajouter des données à la base de données.
Syntaxe:
INSERT INTO nom_table (liste_colonnes)
VALEURS
(value_list_1),
(value_list_2),
…
(value_list_n);
Requêtes SQL pour récupérer toutes les données d’une table
L’une des commandes DLM les plus utilisées, la requête SELECT, est utilisée pour sélectionner des données dans une base de données, et les données récupérées sont stockées dans une table de résultats appelée ensemble de résultats. La requête renvoie un ensemble de résultats d’enregistrements d’une ou de plusieurs tables.
Syntaxe:
SÉLECTIONNER colonne1, colonne2, …
DE nom de la table;
Obtenir des valeurs moyennes pour les données
La syntaxe de la valeur moyenne aide les développeurs à trouver la valeur moyenne dans les données données. Il s’agit d’une fonction d’agrégation qui calcule la valeur moyenne d’un ensemble de données numériques. La fonction peut être utilisée avec la requête SELECT pour récupérer des données d’une table.
Syntaxe:
SELECT AVG( nom_colonne ) FROM nom_table
Rechercher les enregistrements en double
Cette requête aide les développeurs à trouver des enregistrements en double dans la table à l’aide d’un identifiant unique. Cela se fait via l’instruction GROUP BY dans SQL qui organise les données identiques en groupes. Par exemple, si une colonne a les mêmes valeurs dans différentes lignes, l’outil organisera ces lignes dans un groupe. Les valeurs en double peuvent être trouvées en deux étapes :
- Définissez des critères pour les doublons.
- Rédigez une requête pour rechercher des doublons.