Je crois vraiment au DAX en tant que langage d’expressions. Je dois vous avouer que j’étais, et que je suis encore en partie beaucoup plus sceptique en ce qui concerne son usage en tant que langage de requêtes, comparé au MDX que je trouve plus élégant que cette espèce de LISP qui aurait couché avec des formules Excel. Roger Doherty évangéliste SQL Server à Corp, avec qui je parlais il y a quelques jours, m’a répondu à ce sujet que c’était souvent l’avis des MDX-geeks, mais que c’est justement parce que les geeks MDX sont 45 dans le monde et que tout le monde comprend les formules Excel que le DAX va probablement s’imposer. Un point pour lui. Blague à part, pourquoi ai-je eu du mal avec le DAX ? Probablement parce que j’ai mis du temps à appréhender correctement le MDX en oubliant complètement le SQL, et que DAX est plus une sorte de couche relationnelle avec des clauses de jointures implicites qui fait de l’analyse ad-hoc sur des schémas en étoile sans notion d’Exists. Pour les gens comme moi j’écrirais un post, qui sera le suivant en fait.
Il y a une autre raison à ce post. Pour taper les modèles tabulaires, DAX est beaucoup plus efficace que le Formula Engine MDX qu’Excel utilise pour l’attaquer. Donc dans des frontaux où le développeur écrit sa requête, savoir écrire du DAX est à mon sens indispensable. Donc pour la majorité des gens, qui font du SSRS (par exemple) je pense qu’il vaut mieux présenter DAX comme étant à la base un truc fondamentalement relationnel. Au sens d’Edgar Codd – loué soit son nom. Des tables, des jointures, des agrégats… Mon objectif ici est de vous expliquer DAX de cette manière, en reprenant le chapitre 1 de ma formation de SQL de base, et en transposant les concepts.
Back to school : algèbre relationnelle, projections et sélections
DAX manipule des tables. L’instruction la plus simple qu’on puisse faire sur une table est une projection de toutes ces colonnes :
Evaluate
(
‘Product’
)
fait un
SELECT *
FROM [Product]
rien de plus. Si je souhaite faire une sélection, au sens de l’algèbre relationnelle, c’est-à-dire un filtrage, je vais simplement utiliser la fonction Filter, qui remplace le WHERE.
Evaluate
(
Filter
(
Product,
Product[Color] = "Red" && Product[Weight] > 10
)
)
Il s’agit donc d’un
SELECT *
FROM Product
WHERE Color= 'Red' AND Size > 10
Faisons maintenant une projection restreinte et n’affichons que les bonnes colonnes. La manière de le faire est d’utiliser la fonction Summarize
Evaluate
(
Summarize
(
Filter
(
Product,
Product[Color]="Red"
),
Product[Product ID],
Product[Model Name]
)
)
Attention. Ceci est en réalité équivalent à un SELECT DISTINCT car Summarize applique un DISTINCT. La raison est très simple: DAX n’est pas optimisé pour des projections de certaines colonnes seules sans DISTINCT. Pour faire une vraie projection d’algèbre relationnelle sur le niveau de granularité le plus fin, il faut donc avoir une ou plusieurs colonnes UNIQUE dans les colonnes projetées. En ce qui concerne l’aliasing des colonnes, il n’est pas facile à mettre en œuvre. Il faut utiliser l’astuce de Marco Russo qui consiste à projeter une ou plusieurs colonnes qui donnent l’unicité, et à aller chercher les autres colonnes via des Calculate dans un AddColumns.
Oula je suis allé un peu vite pardon. AddColumns permet d’ajouter des colonnes, par exemple calculées, et Calculate évalue simplement une expression dans le contexte actuel.
Evaluate
(
AddColumns
(
Summarize
(
Filter
(
Product,
Product[Color]="Red"
),
Product[Product ID]
),
"Nom du produit", Calculate(Values(Product[Model Name]))
)
)
Pas super intuitif hein. Mais qui se préoccupe d’aliaser les colonnes. Sérieusement.
Que serait un rapport sans agrégations ?
C’est bien la fonction Summarize qui va jouer ce rôle d’agrégateur. En réalité elle permet de définir dans une seule fonction :
– La table
– Les colonnes de groupements
– Les agrégations d’une requête
Par exemple :
Evaluate
(
Summarize
(
Filter
(
Product,
Product[Color]="Red"
),
Product[Model Name],
"Poids Moyen", Average(Product[Weight])
)
)
exécute bien la requête équivalente à
SELECT
[Model Name], AVG([Weight]) AS [Poids]
FROM Product
WHERE Color= 'Red' AND Size > 10
GROUP BY [Model Name]
La plupart des agrégations communes existent. Elles sont simplement parfois renommées et DAX n’étant pas super polymorphique vous en verrez des déclinaisons selon le type attendu en argument … La projection exécutée par Summarize quant à elle est simple à comprendre: les colonnes récupérées sont les groupements et les agrégations. Quant au HAVING, c’est un filtre comme les autres. Du point de vue de DAX, tout n’est que table imbriquées. Si je souhaite faire un filtre sur poids, il me suffit de faire :
Evaluate
(
Filter
(
Summarize
(
Filter
(
Product,
Product[Color]="Red"
),
Product[Model Name],
"Poids Moyen", Average(Product[Weight])
),
[Poids Moyen] > 10
)
)
Cette requête est donc équivalent au SQL suivant: le premier qui demande pourquoi le HAVING ne voit pas les alias est prié d’aller relire tout le standard SQL ANSI au coin.
SELECT
[Model Name], AVG([Weight]) AS [Poids]
FROM Product
WHERE Color= 'Red' AND Size > 10
GROUP BY [Model Name]
HAVING AVG([Weight])> 10
Sans oublier les tris !
J’en aurais presque oublié le tri. Comme dans SQL c’est la dernière instruction dans l’ordre d’évaluation « logique ». Et cela s’appelle aussi Order By. Ca c’est sympa.
Evaluate
(
Summarize
(
Filter
(
Product,
Product[Color]="Red"
),
Product[Model Name],
"Poids", AVERAGE(Product[Weight])
)
)
Order By [Poids] DESC
Sans aucun étonnement, voilà le SQL généré. A noter que nous avons maintenant un statement SQL monotabulaire « complet ».
SELECT
[Model Name], AVG([Weight]) AS [Poids]
FROM Product
WHERE Color= 'Red' AND Size > 10
GROUP BY [Model Name]
HAVING AVG([Weight])> 10
ORDER BY [Poids] DESC
Jointures et relations entre tables : tout – ou presque – est implicite
A la différence de SQL, les jointures sont implicites en DAX. Comme dans un cube, un modèle tabulaire a ses relations définies dans le Dimension Us… pardon dans le designer de relations. Bon en réalité il y a des cas où il faudra les expliciter. Mais on en est pas là. Cette implicitesse… implicité… implicitude signifie que si j’écris la requête suivante :
Evaluate
(
AddColumns
(
Filter
(
Product,
Product[Color] = "Red"
),
"Sous catégorie",RELATED('Product Subcategory'[Product Subcategory Name])
)
)
Order By [Model Name]
La fonction RELATED va juste dire de faire une jointure externe gauche vers la table sous catégorie, en se basant sur la relation définie dans mon modèle – à savoir ‘Product'[Product Subcategory ID] = ‘Product Subcategory‘[Product Subcategory ID] et de ramener cette dernière. On ne peut pas spécifier la condition de jointure, et c’est en cela qu’on se rapproche d’un cube. Mais juste un peu. Bon en SQL ça donne ça:
SELECT p.*, psc.[Product Subcategory Name]
FROM [Product] p
LEFT JOIN [Product Subcategory] psc
ON psc.[Product Subcategory ID]=p.[Product Subcategory ID]
ORDER BY [Model Name]
Cela marche évidemment aussi pour des relations à plus d’une indirection. Je peux bien évidemment aller chercher RELATED(‘Product Category'[Product Category Name]) dans la table catégorie, à laquelle je suis relié par une table intermédiaire (sous catégorie). Qui a parlé de relation Referenced? En revanche cette requête échoue misérablement :
Evaluate
(
AddColumns
(
Filter
(
Product,
Product[Color] = "Red"
),
"Année",RELATED('Date'[Calendar Year])
)
)
Order By [Model Name]
En effet les liens existent certes entre temps et produit (J’ai une many to many entre mes produits et mes dates, qui est la table de faits des ventes) mais ce ne sont pas des liens 1:N comme exigé par la fonction RELATED. Dit autrement Related est un peu comme un Lookup en SSIS : il va chercher une valeur unique basée sur des relations orientées vers la table cible. En utilisant des agrégats c’est encore plus simple : dans la fonction SUMMARIZE les Calculate sont implicites, les agrégats sont donc calculés en suivant les relations.
Evaluate
(
Summarize
(
'Internet Sales',
Product[Model Name],
"Somme des ventes Internet", Sum('Internet Sales'[Sales Amount])
)
)
Order By [Model Name]
Attention par contre! La table “de base” est importante! C’est elle qui détermine de quel côté se situe la jointure externe. Si je fais comme ci-dessous j’affiche tous les produits, même ceux sans ventes (LEFT OUTER JOIN)
Evaluate
(
Summarize
(
Product,
Product[Model Name],
"Somme des ventes Internet", Sum('Internet Sales'[Sales Amount])
)
)
Order By [Model Name]
On comprend donc que dans le cas d’une application analytique, la première table d’un Summarize est très généralement une des tables de faits: c’est depuis elle que les autres arguments du GROUP BY vont venir s’afficher. Pour les filtrages, on peut encore utiliser la fonction Filter vue précédemment. Le problème de Filter, c’est qu’elle est à la base faite pour filtrer les colonnes d’une même table. Donc la solution immédiate c’est d’invoquer Related pour récupérer les valeurs et filtrer.
Evaluate
(
Filter
(
'Internet Sales',
Related('Product'[Color])="Red"
&&
Related('Geography'[Country Region Name])="France"
)
)
Un peu fastidieux et répétitif. Pour remplacer cela il existe la fonction CalculateTable, qui va appliquer à un ensemble infini de filtres, comme suit. J’ai donc ici les ventes de produits rouges en France.
Evaluate
(
CalculateTable
(
'Internet Sales',
'Product'[Color]="Red",
'Geography'[Country Region Name]="France"
)
)
Customisons ça avec un Summarize et quelques autres colonnes, ainsi que quelques agrégats et voilà déjà un beau rapport non ?
Evaluate
(
Filter
(
CalculateTable
(
Summarize
(
'Internet Sales',
'Date'[Calendar Year],
'Product Category'[Product Category Name],
'Product Subcategory'[Product Subcategory Name],
"Nombre de ventes", CountRows('Internet Sales'),
"Total des ventes", Sum('Internet Sales'[Sales Amount])
),
Filter
(
'Product','Product'[Color]="Red"
||
'Product'[Color]="Yellow"
),
'Geography'[Country Region Name]="France"
),
[Total des ventes] > 5000
)
)
Order By [Calendar Year],[Product Category Name]
Ce qui donne en SQL:
SELECT
s.*,
d.[Calendar Year],
pc.[Product Category Name],
psc.[Product Subcategory Name],
COUNT(*) AS [Nombre de ventes],
SUM(s.[Sales Amount]) AS [Total des ventes]
FROM [Internet Sales] s
LEFT JOIN [Date] d
ON s.[Order Date Key] = d.[Date Key]
LEFT JOIN [Product] p
ON p.[Product ID] = s.[Product ID]
LEFT JOIN [Product Subcategory] psc
ON p.[Product Subcategory ID] = psc.[Product Subcategory ID]
LEFT JOIN [Product Category] pc
ON pc.[Product Category ID] = psc.[Product Category ID]
LEFT JOIN [Customer] c
ON s.[Customer ID]= c.[Customer ID]
LEFT JOIN [Geography] g
ON g.[Geography ID]= c.[Geography ID]
WHERE p.Color IN ('Red','Yellow') AND g.Country='France'
GROUP BY
s.*,
d.[Calendar Year],
pc.[Product Category Name],
psc.[Product Subcategory Name]
HAVING SUM(s.[Sales Amount])>5000
ORDER BY [Calendar Year],[Product Category Name]
Je pense que ces quelques fonctions constituent une bonne intro au DAX, vous allez déjà pouvoir sortir quelques rapports. La prochaine fois on s’attaque au plus difficile : le DAX pour les fans de MDX, que j’aurais pu appeler où « Comment on fait un à #@%$ de YearToDate ?! » où « Où qu’il est Exists ? ». Bon weekend!