top of page

Alteryx - Types de données "String": Comment se décider?

mokhtarbichiou


Dans Alteryx, il y a deux manières de définir une chaîne :

  • Longueur fixe (String et WString) : pour le cas d'une chaîne dont la longueur est fixe et constante (ex: un code pays sur 2 caractères "FR" pour France, "UK" pour United Kingdom)

  • Longueur variable (V_String et V_WString) : pour le cas d'une chaîne dont la longueur est variable tout en étant limitée (ex. un libellé pouvant aller jusqu'à 50 caractères)

Il faut donc privilégier les types String ou WString pour représenter un code car c'est une option économique pour le système. En effet, dans le cas d'une chaîne à longueur variable, le système doit gérer la longueur effective de la chaîne pour connaître la position du champ suivant, ce qu'il n'a pas à faire dans une chaîne fixe.

Historiquement les chaînes à longueur variable ont été introduites pour économiser l'espace vide en fin de chaîne.

Mais alors pourquoi deux sous-types à chaque fois ?

Le W de WString et V_WString signifie Wide pour large ou étendu.

Il faut comprendre qu'un caractère est encodé historiquement sur un octet, ce qui permet 256 possibilités. C'est le fameux code ASCII (American Standard Code for Information Interchange - Code américain normalisé pour l'échange d'information).

Or l'anglais (UK/US) n'a pas de lettre accentuée contrairement au français ou aux langues européennes en général. Les langues comme le japonais, chinois, etc. utilisent plus de 256 symboles. Il a donc fallu les encoder sur plus d'un octet: sur deux octets, voire trois. C'est ce qui a donné lieu à l'UNICODE. Dans cette norme d'encodage des caractères, la norme UTF-8 est la plus connue et utilisée. Elle assure la compatibilité avec les codes ASCII.

Ce qu'il faut donc retenir, c'est que si vous utilisez abusivement du WString ou du V_WString, vous perdrez de l'efficacité en volume et en performance. Le pire étant V_WString.

Pour finir, il faut commencer par bien étudier les données du fichier à manipuler. Pour ce faire, vous pouvez utiliser l'outil Alteryx "Champs Automatiques". Cependant, il est recommandé d'utiliser cet outil uniquement dans les phases de découvertes et d'analyses d'une source de données et non en mode "RUN", pour éviter des potentiels problèmes de performance.



Après une première exécution, vous obtiendrez, dans l'onglet "Résultat" du Designer, les informations sur les longueurs optimales et les types à définir dans l'outil "Sélectionner".



Il n'y a plus qu'à reporter dans l'outil "Sélectionner":



Attention toutefois, vous devez rester maître de vos décisions: l'outil vous donne juste une indication.


Conseil : Si le nombre d'enregistrement de la source de donnée est trop volumineux, cette analyse peut être longue. Dans ce cas, limitez le nombre d'enregistrements en effectuant un échantillonnage, par exemple avec l'outil "Echantillon":




N’hésitez pas à poster vos questions/remarques !

A bientôt pour un autre article !



BICHIOU Mokhtar

Consultant BI

Paris

 
 
 

Comments


logo.png

NOUS CONTACTER

location-pin.png
location-pin.png
location-pin.png

Prime Analytics
FRANCE

35-39 Avenue Sainte-Foy Neuilly-Sur-Seine 92200 Paris
+33 1 84 25 73 98 / +33 1 84 25 73 99

ESPAGNE
Cardenal Siliceo, 21 - 28002 Madrid
TUNISIE
1er rue Abou Jaafar Al Manssour, 1002 Tunis
contact@primeanalytics.fr

NEWSLETTER

Merci pour votre envoi !

mail.png

WE ARE SOCIAL

  • Blanc LinkedIn Icône
  • Blanc Facebook Icône
  • Blanc Icône YouTube

Copyright © 2024 PRIME ANALYTICS - Tous droits réservés 

bottom of page