Ce document prend en charge la version de chacun des produits
répertoriés, ainsi que toutes les versions publiées par la suite
jusqu'au remplacement dudit document par une nouvelle
édition. Pour rechercher des éditions plus récentes de ce
document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-001702-00
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus récente sur le site Web de VMware à l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose également les dernières mises à jour des produits.
N’hésitez pas à nous transmettre tous vos commentaires concernant cette documentation à l’adresse suivante :
3401 Hillview Ave.
Palo Alto, CA 94304
www.vmware.com
2 VMware, Inc.
VMware, Inc.
100-101 Quartier Boieldieu
92042 Paris La Défense
France
www.vmware.com/fr
Table des matières
À propos de ce guide7
Utilisation du client d'interface de ligne de commande distant Serengeti9
1
Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant 9
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 11
Gestion des gestionnaires d'applications13
2
À propos des gestionnaires d'applications 13
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 14
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 15
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 15
Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 15
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 16
Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 16
Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne
3
de commande Serengeti19
À propos des gestionnaires d'applications 19
Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 23
Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 23
Ajouter une banque de données avec l'interface de ligne de commande Serengeti 24
Supprimer une banque de données avec l'interface de ligne de commande Serengeti 24
Ajouter un réseau avec l'interface de ligne de commande Serengeti 24
Supprimer un réseau avec l'interface de ligne de commande Serengeti 25
Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti 25
Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti 26
Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. 27
VMware, Inc.
Gérer les utilisateurs et les comptes d'utilisateurs29
4
Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti 29
Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti 31
Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de
commande Serengeti 31
Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti 32
Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti 33
3
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Création de clusters Hadoop et HBase35
5
À propos des types de déploiement de clusters Hadoop et HBase 37
Configurations des clusters Hadoop par défaut pour Serengeti 37
Configurations des clusters HBase par défaut pour Serengeti 38
À propos de la topologie des clusters 38
À propos des clusters HBase 41
À propos des clusters MapReduce 49
À propos des clusters de calcul de données 52
À propos des clusters personnalisés 64
Gestion des clusters Hadoop et HBase73
6
Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti 74
Agrandir un cluster avec l'interface de ligne de commande Serengeti 74
Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti 75
Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 75
Supprimer un cluster avec l'interface de ligne de commande Serengeti 78
À propos de vSphere High Availability et de vSphere Fault Tolerance 78
Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti 78
Développer un cluster à l'aide de l'interface de ligne de commande 78
Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti 80
Effectuer la récupération d'une machine virtuelle de nœud de cluster 80
Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti 81
Surveillance de l'environnement Big Data Extensions83
7
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 83
Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti 84
Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 84
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 84
Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti 85
Afficher les banques de données avec l'interface de ligne de commande Serengeti 85
Afficher les réseaux avec l'interface de ligne de commande Serengeti 86
Afficher les pools de ressources avec l'interface de ligne de commande Serengeti 86
Référence de spécification de cluster87
8
Conditions requises de fichier de spécification de cluster 87
Conditions requises de la définition de cluster 88
Fichier de spécification de cluster annoté 88
Définitions des attributs de spécification de cluster 91
Attributs Hadoop de la liste blanche et de la liste noire 94
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON 96
Référence des commandes de l'interface de ligne de commande Serengeti97
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
6 VMware, Inc.
À propos de ce guide
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit comment utiliser
l'interface de ligne de commande Serengeti pour gérer les ressources vSphere utilisées pour créer les clusters
Hadoop et HBase. Il explique aussi comment créer, gérer et surveiller les clusters Hadoop et HBase à partir
de l'interface de ligne de commande VMware Serengeti™.
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit aussi comment
exécuter les opérations Hadoop et HBase avec l'Serengeti CLI, et fournit la spécification de cluster et les
références des commandes de l'Serengeti CLI.
Public ciblé
Le guide est destiné aux administrateurs système et aux développeurs qui veulent utiliser Serengeti pour
déployer et gérer des clusters Hadoop. Pour bien utiliser Serengeti, vous devez connaître Hadoop et
VMware® vSphere®.
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent éventuellement ne pas vous
être familiers. Pour consulter la définition des termes utilisés dans la documentation technique VMware,
visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
8 VMware, Inc.
Utilisation du client d'interface de
ligne de commande distant Serengeti1
Le client d'interface de ligne de commande distant Serengeti vous permet d'accéder à
Serengeti Management Server pour déployer, gérer et utiliser Hadoop.
Ce chapitre aborde les rubriques suivantes :
« Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
n
commande distant », page 9
« Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti »,
n
page 11
Accéder à l'interface de ligne de commande Serengeti à l'aide du
client d'interface de ligne de commande distant
Vous pouvez accéder à l'interface de ligne de commande (CLI) Serengeti pour effectuer des tâches
administratives Serengeti à l'aide du client d'interface de ligne de commande distant Serengeti.
Prérequis
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server® sur
n
lequel vous avez déployé le vApp Serengeti.
Vérifiez que le déploiement de Serengeti vApp s'est correctement déroulé et que le serveur de gestion
n
est en cours d'exécution.
Vérifiez que le mot de passe dont vous disposez pour vous connecter à la Serengeti CLI est exact.
n
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre
n
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Procédure
1Téléchargez le package Serengeti CLI à partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'à l'URL suivante :
Vous devez exécuter la commande connect host chaque fois que vous commencez une session
d'interface de ligne de commande, puis une nouvelle fois à l'issue du délai d'expiration de session de
30 minutes. Si vous n'exécutez pas cette commande, vous ne pouvez pas en exécuter d'autres.
aExécutez la commande connect.
connect --host xx.xx.xx.xx:8443
bÀ l'invite, tapez votre nom d'utilisateur, qui peut être différent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne créez pas de nom d'utilisateur et de mot de passe pour le
Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification
d'administrateur vCenter Server par défaut. Le Serengeti Command-Line Interface Client utilise les
informations d'identification de vCenter Server avec les autorisations de lecture sur le
Serengeti Management Server.
cÀ l'invite, tapez votre mot de passe.
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI apparaît. Vous pouvez utiliser la
commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particulière, ajoutez son nom après la commande help.
n
help cluster create
Appuyez sur Tab exécuter une commande.
n
10 VMware, Inc.
Chapitre 1 Utilisation du client d'interface de ligne de commande distant Serengeti
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de
commande Serengeti
Pour résoudre les problèmes ou exécuter vos scripts d'automatisation de la gestion, connectez-vous aux
nœuds Hadoop master, worker et client via SSH à partir du Serengeti Management Server à l'aide des outils
des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de
passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion
authentifiée par un nom d'utilisateur et un mot de passe. Tous les nœuds déployés sont protégés par un mot
de passe soit aléatoire, soit défini par l'utilisateur, qui a été attribué lors de la création du cluster.
Prérequis
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle
Serengeti Management Server est en cours d'exécution.
Procédure
1Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à
l'invite de commande.
2Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root apparaît sur la console de la machine virtuelle dans
vSphere Web Client.
3Modifiez le mot de passe du nœud Hadoop en exécutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
VMware, Inc. 11
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
12 VMware, Inc.
Gestion des gestionnaires
d'applications2
Pour bien gérer vos clusters Hadoop, il est essentiel de comprendre comment gérer les différents
gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
« À propos des gestionnaires d'applications », page 13
n
« Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 14
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
n
Serengeti », page 15
« Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 15
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
n
l'interface de ligne de commande Serengeti », page 15
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
n
de l'interface de ligne de commande Serengeti », page 16
« Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 16
À propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour
provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à
Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
n
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
n
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
13
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
n
au lieu de l'URL.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
n
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
n
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps
que les anciens.
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
n
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions.
Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne
de commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères
alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
14 VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications
Afficher la liste des gestionnaires d'applications à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement
Big Data Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez « Commande appmanager modify », page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
VMware, Inc. 15
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire
d'applications et la distribution à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Supprimer un gestionnaire d'applications à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
n
environnement Big Data Extensions.
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
n
Sinon, le processus de suppression échouera.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
16 VMware, Inc.
2Exécutez la commande appmanager delete.
appmanager delete --name application_manager_name
Chapitre 2 Gestion des gestionnaires d'applications
VMware, Inc. 17
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
18 VMware, Inc.
Gestion de l'environnement Big Data
Extensions à l'aide de l'interface de
ligne de commande Serengeti3
Vous devez gérer votre Big Data Extensions, ce qui inclut de s'assurer que si vous n'avez pas choisi d'ajouter
le pool de ressources, la banque de données et le réseau lorsque vous déployez le vApp Serengeti, vous
ajoutez les ressources vSphere avant de créer un cluster Hadoop ou HBase. Vous devez aussi ajouter des
gestionnaires d'applications supplémentaires, si vous voulez utiliser Ambari ou Cloudera Manager pour
gérer vos clusters Hadoop. Vous pouvez supprimer les ressources dont vous n'avez plus besoin.
Ce chapitre aborde les rubriques suivantes :
« À propos des gestionnaires d'applications », page 19
n
« Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Ajouter une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Ajouter un réseau avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer un réseau avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti », page 26
n
« Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. »,
n
page 27
À propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour
provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à
Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
n
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
n
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
19
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
n
au lieu de l'URL.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
n
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
n
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps
que les anciens.
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
n
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions.
Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères
alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
20 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement
Big Data Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez « Commande appmanager modify », page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la
distribution à l'aide de l'interface de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
VMware, Inc. 21
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
n
environnement Big Data Extensions.
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
n
Sinon, le processus de suppression échouera.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager delete.
appmanager delete --name application_manager_name
22 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Ajouter un pool de ressources avec l'interface de ligne de commande
Serengeti
Vous pouvez ajouter des pools de ressources pour qu'ils puissent être utilisés par les clusters Hadoop. Les
pools de ressources doivent être situés au niveau supérieur du cluster. Les pools de ressources imbriqués ne
sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources à Big Data Extensions, il représente symboliquement le pool de
ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous
permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'accès complet du
pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Procédure
1Accédez au client d'interface de ligne de commande Serengeti.
2Exécutez la commande resourcepool add.
Le paramètre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nommé myRP au pool de ressources vSphere rp1
contenu dans le cluster vSphere cluster1.
Supprimer un pool de ressources avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilisés par un cluster Hadoop.
Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les
clusters Hadoop que vous créez dans le serveur de gestion Serengeti soient déployés sous un autre pool de
ressources. La suppression d'un pool de ressources supprime sa référence dans vSphere. Le pool de
ressources n'est pas réellement supprimé.
Procédure
1Accédez au client d'interface de ligne de commande Serengeti.
2Exécutez la commande resourcepool delete.
Si la commande échoue parce que le pool de ressources est référencé par un cluster Hadoop, vous
pouvez utiliser la commande resourcepool list pour voir quel cluster référence ce pool de ressources.
Cet exemple supprime le pool de ressources nommé myRP.
resourcepool delete --name myRP
VMware, Inc. 23
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Ajouter une banque de données avec l'interface de ligne de
commande Serengeti
Vous pouvez ajouter des banques de données locales ou partagées au serveur Serengeti pour que les clusters
Hadoop puissent y accéder.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande datastore add.
L'exemple ajoute une nouvelle banque de données de stockage local, nommée myLocalDS. La valeur du
paramètre --spec, local*, est un caractère générique spécifiant un ensemble de banques de données
vSphere. Toutes les banques de données vSphere dont le nom commence par « local » sont ajoutées et
gérées comme un tout par Serengeti.
datastore add --name myLocalDS --spec local* --type LOCAL
Suivant
Après avoir ajouté une banque de données à Big Data Extensions, ne la renommez pas dans vSphere. Si
vous la renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
Supprimer une banque de données avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer une banque de données de Serengeti qui n'est référencée par aucun cluster
Hadoop. La suppression d'une banque de données supprime uniquement la référence à la banque de
données vCenter Server. La banque de données elle-même n'est pas supprimée.
Vous supprimez les banques de données si vous n'en avez plus besoin ou si vous voulez déployer les
clusters Hadoop que vous créez sur le serveur de gestion Serengeti sous une autre banque de données.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande datastore delete.
Si la commande échoue parce que la banque de données est référencée par un cluster Hadoop, vous
pouvez utiliser la commande datastore list pour savoir quel cluster fait référence à la banque de
données.
Cet exemple supprime la banque de données myDS.
datastore delete --name myDS
Ajouter un réseau avec l'interface de ligne de commande Serengeti
Ajouter des réseaux à Big Data Extensions permet aux clusters Hadoop d'accéder à leurs adresses IP. Un
réseau est à la fois un groupe de ports et un moyen d'accéder à ce groupe via une adresse IP.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
24 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant
d'ajouter le réseau.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande network add.
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les machines
virtuelles utilisant ce réseau recourent au protocole DHCP pour obtenir les adresses IP.
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les nœuds Hadoop
utilisent les adresses de la plage d'adresses IP 192.168.1.2-100 ; l'adresse IP du serveur DNS est
10.111.90.2, l'adresse de la passerelle est 192.168.1.1 et le masque de sous-réseau est 255.255.255.0.
Supprimer un réseau avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un réseau de Serengeti qui n'est référencé par aucun cluster Hadoop. La
suppression d'un réseau non utilisé libère les adresses IP en vue d'une réutilisation.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande network delete.
network delete --name network_name
Si la commande échoue parce que le réseau est référencé par un cluster Hadoop, vous pouvez utiliser la
commande network list --detail pour savoir quel cluster fait référence au réseau.
Reconfigurer un réseau IP statique avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer un réseau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se
peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacité pour
le cluster que vous voulez créer.
Si la plage d'adresses IP que vous spécifiez inclut les adresses IP qui sont déjà dans le réseau, Serengeti
ignore les adresses dupliquées. Les adresses restantes de la plage spécifiée sont ajoutées au réseau. Si le
réseau est déjà utilisé par un cluster, celui-ci peut utiliser les nouvelles adresses IP après que vous les avez
ajoutées au réseau. Si seule une partie de la plage d'adresses IP est utilisée par un cluster, les adresses IP non
employées peuvent être utilisées lorsque vous créez un nouveau cluster.
VMware, Inc. 25
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant
d'ajouter le réseau.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande network modify.
Cet exemple ajoute les adresses IP comprises entre 192.168.1.2 et 192.168.1.100 à un réseau nommé
myNetwork.
Reconfigurer le type de DNS à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer le type de système de noms de domaine (DNS) d'un réseau, et spécifier que
Big Data Extensions génère des noms d'hôte significatifs pour les nœuds d'un cluster Hadoop.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
Vous pouvez spécifier trois options DNS :
Normale
Dynamique
Autres
Les noms d'hôte vous permettent d'identifier les éléments plus facilement et d'utiliser des services tels que
l'authentification unique, ce qui nécessite l'utilisation d'un DNS correctement configuré.
Procédure
1Accédez à l'Serengeti CLI.
Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il s'agit
du contraire du DNS normal qui mappe les noms de domaine aux
adresses IP. Par défaut, le type de DNS est normal.
Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à
jour automatique d'un nom de serveur du système DNS (Domain Name
System) avec la configuration DNS active de ses noms d'hôte configurés,
adresses ou autres informations. Big Data Extensions s'intègre à un serveur
Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement auprès du serveur DNS.
Il n'y a pas de serveur DNS ou le serveur DNS n'offre pas de résolution DNS
normale ou de services Dynamic DNS. Dans ce cas, vous devez ajouter un
mappage FQDN/IP pour tous les nœuds du fichier /etc/hosts de chaque
nœud du cluster. Grâce à ce mappage de noms d'hôte vers des adresses IP,
chaque nœud peut contacter un autre nœud du cluster.
2Exécutez la commande network modify.
Vous pouvez spécifier trois types de DNS : NORMAL, DYNAMIC et OTHERS. La valeur par défaut est NORMAL.
Dans cet exemple, un réseau nommé myNetwork est modifié de sorte qu'il utilise un type Dynamic DNS.
Les machines virtuelles utilisant ce réseau recourront au protocole DHCP pour obtenir les adresses IP.
network modify --name myNetwork --dnsType DYNAMIC
26 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Augmenter les performances de clonage et l'utilisation des
ressources des machines virtuelles.
Vous pouvez rapidement cloner et déployer des machines virtuelles à l'aide de Instant Clone, une
fonctionnalité de vSphere 6.0.
À l'aide de Instant Clone, une machine virtuelle parent est dupliquée, puis une machine virtuelle enfant (ou
un clone instantané) est créée. La machine virtuelle enfant tire profit du stockage et de la mémoire de la
machine virtuelle parent, ce qui permet de réduire l'utilisation des ressources.
Lorsque vous provisionnez un cluster, Big Data Extensions crée une machine virtuelle parent pour chaque
hôte sur lequel un nœud de cluster a été placé. Après le provisionnement, un nouveau pool de ressources
étiqueté BDE-ParentVMs-$serengeti.uuid-$template.name apparaît dans vCenter Server. Ce pool de
ressources contient plusieurs machines virtuelles parent. Les nœuds de cluster normaux sont clonés
instantanément à partir de ces machines virtuelles parent. Une fois qu'elles sont créées sur les hôtes du
cluster, le temps nécessaire au provisionnement et à la mise à l'échelle d'un cluster est considérablement
réduit.
Lorsque vous mettez un clone à l'échelle, le type de clone que vous avez spécifié lors de la création du
cluster continue d'être utilisé, quel que soit le type actuel du clone. Par exemple, si vous avez créé un cluster
à l'aide de la fonction Instant Clone, puis que vous passez au type Fast Clone dans Big Data Extensions, le
cluster que vous avez provisionné à l'aide d'Instant Clone continuera d'utiliser Instant Clone pour agrandir
le cluster.
Si vous créez des clusters et que vous souhaitez ultérieurement apporter des changements à la machine
virtuelle de modèle utilisée pour provisionner ces clusters, vous devez d'abord supprimer toutes les
machines virtuelles parent existantes avant d'utiliser la nouvelle machine virtuelle de modèle. Lorsque vous
créez des clusters à l'aide du nouveau modèle, Big Data Extensions crée de nouvelles machines virtuelles
parent basées sur le nouveau modèle.
Prérequis
Votre déploiement Big Data Extensions doit utiliser vSphere 6.0 pour bénéficier d'Instant Clone.
Procédure
1Connectez-vous à Serengeti Management Server.
2Modifiez le fichier /opt/serengeti/conf/serengeti.properties et changez la valeur de
cluster.clone.service=fast.
Le type de clone par défaut lorsque vous exécutez vSphere 6.0 est Instant Clone.
cluster.clone.service = instant
3Pour activer le type Instant Clone, redémarrez Serengeti Management Server.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier serengeti.properties révisé et applique la fonction Fast
Clone à tous les nouveaux clusters que vous créez.
Suivant
Tous les clusters que vous créez ensuite utiliseront Instant Clone pour déployer les machines virtuelles.
Reportez-vous à Chapitre 5, « Création de clusters Hadoop et HBase », page 35.
VMware, Inc. 27
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
28 VMware, Inc.
Gérer les utilisateurs et les comptes
d'utilisateurs4
Par défaut, l'authentification est configurée uniquement pour les comptes d'utilisateurs locaux dans
Big Data Extensions. Si vous voulez utiliser LDAP (soit Active Directory soit un répertoire compatible
OpenLDAP) pour authentifier les utilisateurs, vous devez configurer Big Data Extensions pour utiliser votre
service LDAP ou Active Directory.
Ce chapitre aborde les rubriques suivantes :
« Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
n
Serengeti », page 29
« Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti »,
n
page 31
« Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande
n
Serengeti », page 31
« Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
n
Serengeti », page 32
« Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti », page 33
n
Créer un fichier de configuration du service LDAP avec l'interface de
ligne de commande Serengeti
Créez un fichier de configuration qui identifie votre environnement de serveur LDAP ou Active Directory.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Accédez au répertoire de Serengeti Management Server dans lequel vous souhaitez créer et stocker le
fichier de configuration.
Vous pouvez utiliser le répertoire /opt/serengeti/etc pour stocker votre fichier de configuration.
VMware, Inc.
29
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3À l'aide d'un éditeur de texte, créez un fichier JavaScript Object Notation (JSON) contenant les
paramètres de configuration de votre service LDAP ou Active Directory.
Le format du fichier de configuration est représenté ci-dessous.
Une fois que vous avez créé un fichier de configuration LDAP, vous pouvez activer la gestion centralisée
des utilisateurs pour votre environnement Big Data Extensions. Reportez-vous à « Activer la gestion
centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31.
30 VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs
Activer la gestion centralisée des utilisateurs à l'aide de l'interface de
ligne de commande Serengeti
Vous devez configurer Big Data Extensions de sorte qu'il utilise une source d'identité utilisateur externe
avant de pouvoir gérer les utilisateurs via votre service LDAP ou Active Directory.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Créez un fichier de configuration identifiant votre environnement LDAP ou Active Directory à utiliser
n
avec Big Data Extensions. Reportez-vous à « Créer un fichier de configuration du service LDAP avec
l'interface de ligne de commande Serengeti », page 29
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande usermgmtserver add --cfgfileconfig_file_path
Cet exemple active la gestion centralisée des utilisateurs, en indiquant que les paramètres de
configuration LDAP se trouvent dans le fichier /opt/serengeti/LDAPConfigFile.cfg.
3Exécutez la commande mgmtvmcfg get pour vérifier la configuration correcte de votre environnement en
affichant les informations de configuration du service LDAP ou Active Directory.
Le contenu du fichier de la configuration active utilisé par votre environnement Big Data Extensions
s'affiche sur le terminal.
Suivant
Lorsque vous activez la gestion centralisée des utilisateurs, vous pouvez créer des clusters et attribuer des
rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service
LDAP ou Active Directory. Reportez-vous à « Créer un cluster avec l'authentification utilisateur LDAP à
l'aide de l'interface de ligne de commande Serengeti », page 31.
Créer un cluster avec l'authentification utilisateur LDAP à l'aide de
l'interface de ligne de commande Serengeti
Lorsque la gestion centralisée des utilisateurs est configurée et activée, vous pouvez accorder des privilèges
aux utilisateurs et aux groupes d'utilisateurs dans votre service LDAP ou Active Directory pour chaque
cluster Hadoop que vous créez.
Pour illustrer l'utilisation de la gestion centralisée des utilisateurs dans votre environnement
Big Data Extensions, vous pouvez attribuer aux groupes dotés de privilèges administratifs dans votre
service LDAP ou Active Directory un accès au Serengeti Management Server. Cela permet aux utilisateurs
d'administrer Big Data Extensions et le Serengeti Management Server. Vous pouvez ensuite octroyer à un
autre groupe d'utilisateurs un accès à des nœuds de cluster Hadoop pour leur permettre d'exécuter des
tâches Hadoop.
VMware, Inc. 31
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour accéder aux commandes de l'Serengeti CLI et de Serengeti, les utilisateurs doivent prendre l'identité
d'utilisateur serengeti après leur connexion. Par exemple, vous pouvez utiliser la commande su pour
prendre l'identité d'utilisateur serengeti. Vous pourrez ensuite accéder à l'Serengeti CLI.
su serengeti
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportez-
n
vous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez le cluster create command et spécifiez la valeur des paramètres --adminGroupName et --
userGroupName à l'aide des noms des groupes d'administrateurs et des groupes d'utilisateurs auxquels
vous souhaitez accorder des privilèges relatifs au cluster que vous créez.
Après avoir déployé le cluster Hadoop, vous pouvez y accéder à l'aide de plusieurs méthodes. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Changer les modes de gestion des utilisateurs à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez modifier le mode de gestion des utilisateurs de votre environnement Big Data Extensions.
Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux gérés par LDAP ou Active
Directory, ou une combinaison de ces méthodes d'authentification.
Tableau 4‑2. Modes d'authentification utilisateur
Mode utilisateurDescription
Local
Utilisateur LDAP
Mode mixte
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
environnement Big Data Extensions. Il s'agit de la solution de gestion des utilisateurs par
défaut.
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source
d'identité de votre entreprise telle qu'Active Directory ou LDAP. Si vous choisissez le mode
utilisateur LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service
LDAP ou Active Directory (Active Directory en tant que LDAP).
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans
une source d'identité externe. Si vous choisissez le mode mixte, vous devez configurer
Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory
en tant que LDAP).
32 VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande mgmtvmcfg modify pour spécifier le mode d'authentification utilisateur que vous
souhaitez utiliser.
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
n
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut
lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify LOCAL
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une
n
source d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions
pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify MIXED
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de
n
votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP,
vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify LDAP
Big Data Extensions utilise le mode d'authentification utilisateur que vous avez spécifié.
Modifier la configuration LDAP à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier vos paramètres LDAP et rendre ces modifications disponibles dans votre
environnement Big Data Extensions.
Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de
configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportez-
n
vous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
Modifiez le fichier de configuration LDAP pour refléter tous les changements que vous souhaitez
n
apporter à vos paramètres de gestion des utilisateurs. Reportez-vous à « Créer un fichier de
configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29
VMware, Inc. 33
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande usermgmtserver modify --cfgfileconfig_file_path
usermgmtserver modify --cfgfile config_file_path
Tous les changements que vous avez apportés au fichier de configuration LDAP sont appliqués à votre
environnement Big Data Extensions. Les clusters que vous créez utiliseront les nouveaux paramètres LDAP.
Suivant
Vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des
groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un
cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti »,
page 31.
34 VMware, Inc.
Création de clusters Hadoop et
HBase5
Dans Big Data Extensions, vous pouvez créer et déployer des clusters Hadoop et HBase. Un cluster Big Data
est un type de cluster de calcul conçu pour stocker et analyser de grandes quantités de données non
structurées dans un environnement informatique distribué.
Restrictions.
Lorsque vous créez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
n
défaut, car les autres ne prennent pas en charge ce type de cluster.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
La mise hors tension temporaire des hôtes provoque l'échec des clusters Big Data pendant la création
n
du cluster.
Lorsque vous créez des clusters Big Data, Big Data Extensions calcule le placement des machines
virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des stratégies de
placement définies par l'utilisateur avant la création des machines virtuelles. Lors de ces calculs, si
certains hôtes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power
Management (VMware DPM), ces hôtes ne sont pas considérés comme des ressources disponibles par
Big Data Extensions.
Si un hôte est mis hors tension ou en veille après que Big Data Extensions a calculé le placement des
machines virtuelles, mais avant leur création, la création du cluster échoue tant que vous ne remettez
pas ces hôtes sous tension. Les solutions de contournement suivantes peuvent vous aider à éviter ce
problème et à y remédier.
n
n
n
Conditions
Les besoins en ressources sont différents pour les clusters créés avec l'interface de ligne de commande de
Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des modèles
par défaut différents. Les clusters par défaut créés à l'aide de la Serengeti CLI sont ciblés sur les utilisateurs
de Project Serengeti et les applications de validation technique. Ils sont plus petits que les modèles de plugin de Big Data Extensions, qui sont ciblés sur des déploiements de plus grande envergure à usage
commercial.
VMware, Inc.
Désactivez VMware DPM sur les clusters vSphere où vous déployez et exécutez
Big Data Extensions.
Mettez les hôtes en mode maintenance avant de les mettre hors tension.
Si la création d'un cluster Big Data échoue en raison de l'indisponibilité temporaire des hôtes qui
lui sont attribués, reprenez la création du cluster après avoir mis les hôtes sous tension.
35
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Certaines configurations de déploiement nécessitent plus de ressources que d'autres. Par exemple, si vous
créez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous
créez un cluster MapR ou Greenplum HD par défaut à l'aide de la Serengeti CLI, il est recommandé de
disposer d'au moins 550 Go de stockage et de 55 Go de mémoire. Pour les autres distributions Hadoop, il est
recommandé de disposer d'au moins 350 Go de stockage et de 35 Go de mémoire.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles sur le cluster. Cela empêche la migration automatique des
machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du
cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur
de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de
l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data
Extensions telles que la récupération de défaillances de disque.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Ce chapitre aborde les rubriques suivantes :
« À propos des types de déploiement de clusters Hadoop et HBase », page 37
n
« Configurations des clusters Hadoop par défaut pour Serengeti », page 37
n
« Configurations des clusters HBase par défaut pour Serengeti », page 38
n
« À propos de la topologie des clusters », page 38
n
« À propos des clusters HBase », page 41
n
« À propos des clusters MapReduce », page 49
n
« À propos des clusters de calcul de données », page 52
n
« À propos des clusters personnalisés », page 64
n
36 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
À propos des types de déploiement de clusters Hadoop et HBase
Avec Big Data Extensions, vous pouvez créer et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
Cluster HBase
Cluster de séparation
de données et de calcul
Cluster de calcul
uniquement
Cluster de calcul de
travailleurs uniquement
Cluster uniquement
HBase
Déploiement Hadoop simple pour les projets de validation technique et
d'autres tâches de traitement de données à petite échelle. Le cluster Hadoop
de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure
MapReduce traite les problèmes en parallèle sur d'énormes jeux de données
dans le HDFS.
Il s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes
pour stocker de grandes quantités de données éparses.
Sépare les nœuds de données et de calcul ou les clusters qui contiennent des
nœuds de calcul uniquement. Dans ce type de cluster, le nœud de données et
le nœud de calcul ne sont pas sur la même machine virtuelle.
Vous pouvez créer un cluster qui contient uniquement des nœuds de calcul,
par exemple des nœuds JobTracker, TaskTracker, ResourceManager et
NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de
calcul uniquement sert à exécuter des tâches MapReduce sur un cluster
HDFS externe.
Contient uniquement des nœuds worker, par exemple des nœuds
TaskTracker et NodeManager, mais pas des nœuds NameNode ni
DataNode. Un cluster de calcul de travailleurs uniquement sert à ajouter des
nœuds de calcul worker à un cluster Hadoop existant.
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais
pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase
uniquement peuvent utiliser le même cluster HDFS externe.
Cluster personnalisé
Utilise un fichier de spécification de cluster pour créer des clusters à l'aide de
la même configuration que celle des clusters précédemment créés. Vous
pouvez modifier le fichier de spécification de cluster pour personnaliser la
configuration du cluster.
Configurations des clusters Hadoop par défaut pour Serengeti
Pour les déploiements Hadoop de base, tels que les projets de validation technique, vous pouvez utiliser la
configuration de cluster Hadoop par défaut pour Serengeti dans le cas des clusters créés avec l'interface de
ligne de commande.
Le déploiement du cluster obtenu se compose des machines virtuelles et nœuds suivants :
Une machine virtuelle de nœud master avec les services NameNode et JobTracker.
n
Trois machines virtuelles de nœud worker, chacune avec les services DataNode et TaskTracker.
n
Une machine virtuelle de nœud client contenant l'environnement client Hadoop : le shell client
n
Hadoop, Pig et Hive.
VMware, Inc. 37
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2
(YARN)
Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge à la fois
MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par défaut sont différentes.
La configuration de cluster Hadoop par défaut pour CDH4 est un cluster MapReduce v1. La configuration
de cluster Hadoop par défaut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions
prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.
Configurations des clusters HBase par défaut pour Serengeti
HBase est une base de données distribuée en colonnes open source qui utilise MapReduce et HDFS pour
gérer les données. Vous pouvez utiliser HBase pour créer des applications de table volumineuses.
Pour exécuter les tâches HBase MapReduce, configurez le cluster HBase de façon à inclure les nœuds
JobTracker ou TaskTracker. Lorsque vous créez un cluster HBase avec l'interface de ligne de commande,
conformément au modèle Serengeti HBase par défaut, le cluster obtenu se compose des nœuds suivants :
Un nœud master, qui exécute les services NameNode et HBaseMaster.
n
Trois nœuds zookeeper, chacun exécutant le service ZooKeeper.
n
Trois nœuds de données, chacun exécutant les services DataNode et HBase Regionserver.
n
Un nœud client, à partir duquel vous pouvez exécuter les tâches Hadoop ou HBase.
n
Le cluster HBase par défaut déployé par Serengeti ne contient pas de démons Hadoop JobTracker ou
Hadoop TaskTracker. Pour exécuter une tâche HBase MapReduce, déployez un cluster HBase personnalisé
non par défaut.
À propos de la topologie des clusters
Vous pouvez améliorer l'équilibrage de la charge de travail entre vos nœuds de cluster et accroître les
performances et le débit en spécifiant comment les machines virtuelles Hadoop sont placées, à l'aide de la
reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de
calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes
physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse
la topologie de l'hôte de votre environnement et les informations sur le réseau. Les performances d'Hadoop
sont supérieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est
disponible, plutôt que les transferts hors rack lorsqu'il attribue des tâches MapReduce aux nœuds. HDFS
peut placer des réplicas de manière plus intelligente pour améliorer les performances et la résilience. Par
exemple, si vous avez des nœuds de données et des nœuds de calcul distincts, vous pouvez améliorer les
performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
38 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Vous pouvez spécifier les configurations suivantes de reconnaissance de la topologie.
Extensions de
virtualisation Hadoop
(HVE, Hadoop
Virtualization
Extensions)
Fiabilité et performances des clusters améliorées grâce à un placement des
réplicas, une planification des tâches et des politiques d'équilibrage Hadoop
plus précis. Les clusters Hadoop implémentés dans une infrastructure
virtualisée sont dotés d'une reconnaissance complète de la topologie sur
laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et
vous devez créer et télécharger un fichier de mappage rack-hôtes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les
informations sur le rack et l'hôte sont exposées à Hadoop. Pour utiliser
RACK_AS_RACK, créez et téléchargez un fichier de topologie de serveur.
HÔTE_EN_RACK
Topologie simplifiée pour les distributions Apache Hadoop. Pour éviter de
placer tous les réplicas de blocs de données HDFS sur le même hôte
physique, chaque hôte physique est traité comme un rack. Étant donné que
les réplicas des blocs de données ne sont jamais placés sur un rack, cela évite
le pire scénario où une défaillance d'un seul hôte provoque la perte totale
d'un bloc de données.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne
disposez pas d'informations sur le rack vous permettant de décider des
options de configuration de la topologie.
Aucune
Aucune topologie n'est spécifiée.
Fichier de mappage rack/hôtes de la topologie
Les fichiers de mappage rack/hôtes de la topologie sont des fichiers texte brut qui associent les racks
logiques aux hôtes physiques. Ces fichiers sont obligatoires pour créer des clusters avec une topologie HVE
ou RACK_AS_RACK.
Le format de chaque ligne d'un fichier de mappage rack/hôtes de la topologie est :
rackname: hostname1, hostname2 ...
Par exemple, pour affecter les hôtes physiques a.b.foo.com et a.c.foo.com à rack1, et l'hôte physique
c.a.foo.com à rack2, incluez les lignes suivantes dans votre fichier de mappage rack/hôtes de la topologie.
Fichiers de définition de la stratégie de placement de la topologie
Le champ placementPolicies du fichier de spécification de cluster contrôle la façon dont les nœuds sont
placés dans le cluster.
Si vous spécifiez des valeurs pour instancePerHost et pour groupRacks, il doit y avoir un nombre suffisant
d'hôtes disponibles. Pour afficher les informations sur les racks hôtes, utilisez la commande topology list.
Le code illustre un exemple du champ placementPolicies dans un fichier de spécification de cluster.
Tableau 5‑1. Définition de l'objet placementPolicies
Champ JSONTypeDescription
instancePerHostFacultatifNombre de nœuds de machine
groupRacksFacultatifMéthode de répartition des nœuds de
groupAssociationsFacultatifUn ou plusieurs groupes de nœuds
virtuelle à placer pour chaque hôte
ESXi physique. Cette contrainte est
destinée à équilibrer la charge de
travail.
machine virtuelle entre les racks
physiques du cluster. Spécifiez les
chaînes JSON suivantes :
n
type. Spécifiez ROUNDROBIN
pour sélectionner les candidats
équitablement et sans priorité.
n
racks. Racks de la carte de
topologie à utiliser.
cibles auquel ou auxquels ce groupe de
nœuds est associé. Spécifiez les chaînes
JSON suivantes :
n
reference. Nom du groupe de
nœuds cible
n
type:
STRICT. Placez le groupe de
n
nœuds sur l'ensemble ou le sousensemble d'hôtes ESXi du groupe
cible. Si le placement STRICT n'est
pas possible, l'opération échoue.
FAIBLE. Essayez de placer le
n
groupe de nœuds sur l'ensemble
ou le sous-ensemble d'hôtes ESXi
du groupe cible, mais si ce n'est
pas possible, utilisez un hôte ESXi
supplémentaire.
40 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster avec prise en charge de la topologie à l'aide de l'interface de
ligne de commande Serengeti
Pour obtenir une charge de travail équilibrée ou améliorer les performances et le débit, vous pouvez
contrôler la façon dont les machines virtuelles Hadoop sont placées en ajoutant la prise en charge de la
topologie aux clusters Hadoop. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de
calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes
physiques.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2(Facultatif) Exécutez la commande topology list pour afficher la liste des topologies disponibles.
topology list
3(Facultatif) Si vous voulez que le cluster utilise les topologies HVE ou RACK_AS_RACK, créez un
fichier de mappage rack/hôtes de topologie, puis téléchargez le fichier sur le serveur de gestion
Serengeti.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
HBase s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes
quantités de données éparses.
VMware, Inc. 41
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Créer un cluster HBase par défaut avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'Serengeti CLI pour déployer les clusters HBase sur HDFS.
Cette tâche crée un cluster HBase par défaut qui ne contient pas l'infrastructure MapReduce. Exécuter les
tâches MapReduce HBase, ajoutez les nœuds Jobtracker et TaskTracker ou ResourceManager et
NodeManager à l'exemple de fichier de spécification de cluster HBase par
défaut /opt/serengeti/samples/default_hbase_cluster.json, puis créez un cluster à l'aide de ce fichier de
spécification.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez le cluster create command et spécifiez la valeur du paramètre --type comme hbase.
cluster create --name cluster_name --type hbase
Suivant
Après avoir déployé le cluster, vous pouvez accéder à une base de données HBase à l'aide de plusieurs
méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Créer un cluster uniquement HBase dans Big Data Extensions
Big Data Extensions vous permet de créer un cluster uniquement HBase qui contient uniquement des
nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le
cluster uniquement HBase présente l'avantage de permettre à plusieurs clusters HBase d'utiliser le même
HDFS externe.
Procédure
1Conditions préalables à la création d'un cluster uniquement HBase page 43
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système
remplit toutes les conditions préalables.
2Préparer EMC Isilon OneFS en tant que cluster HDFS externe page 43
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser
avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes
d'utilisateurs, et préparer votre environnement Isilon OneFS.
3Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti page 44
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement
HBase.
42 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Conditions préalables à la création d'un cluster uniquement HBase
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit
toutes les conditions préalables.
Conditions préalables
Vérifiez que vous avez démarré Serengeti vApp.
n
Vérifiez que vous avez plusieurs distributions si vous voulez en utiliser une différente de celle par
n
défaut.
Vérifiez que vous avez un cluster HDFS existant à utiliser en tant que cluster HDFS externe.
n
Pour éviter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters
doivent utiliser la même distribution Hadoop et la même version.
Si le cluster HDFS n'a pas été créé à l'aide de Big Data Extensions, vérifiez que le répertoire
n
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS
externe :
hdfs
n
hbase
n
serengeti
n
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vérifiez que votre environnement
n
Isilon est préparé.
Pour plus d'informations sur la manière de préparer votre environnement, consultez « Préparer EMC
Isilon OneFS en tant que cluster HDFS externe », page 43.
Préparer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et
préparer votre environnement Isilon OneFS.
Procédure
1Connectez-vous à l'un des nœuds HDFS Isilon en tant que user root
2Créez les utilisateurs.
hdfs
n
hbase
n
serengeti
n
mapred
n
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'écriture; de lecture et d'exécution pour
tout le répertoire HDFS exporté.
3Créez le groupe d'utilisateurs hadoop.
4Créez le répertoire tmp sous le répertoire HDFS racine.
5Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 777.
6Créez le répertoire hadoop sous le répertoire HDFS racine.
7Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 775.
8Créez le répertoire hbase sous le répertoire hadoop.
VMware, Inc. 43
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
9Définissez le propriétaire en tant que hbase:hadoop et les autorisations de lecture et d'écriture 775.
10 Définissez le propriétaire du répertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
Vous êtes maintenant prêt à créer le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster
externe.
Créer un cluster uniquement HBase avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par défaut, car les autres gestionnaires d'applications ne
prennent pas en charge les clusters uniquement HBase.
Procédure
1Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
Le fichier /opt/serengeti/samples/hbase_only_cluster.json est un exemple de fichier de spécification
pour les clusters uniquement HBase. Il contient les rôles zookeeper, hbase_master et
hbase_regionserver, mais pas le rôle hadoop_namenode/hadoop_datanode.
5Pour vérifier que le cluster a été créé, exécutez la commande cluster list .
cluster list --name name
Lorsque le cluster est créé, le système retourne Cluster clustername créé.
44 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster HBase avec protection HA vSphere à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez créer des clusters HBase avec des rôles maîtres Hadoop NameNode et HBase distincts. Vous
pouvez configurer la protection HA vSphere HA pour les rôles maîtres.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
rôles des groupes de nœuds et la protection vSphere HA.
Dans cet exemple, le cluster possède les nœuds JobTracker et TaskTracker, qui vous permettent
d'exécuter les tâches HBase MapReduce. Les rôles maîtres Hadoop NameNode et HBase sont distincts,
et les deux sont protégés par vSphere HA.
"haFlag" : "off",
"configuration" : {
}
}
],
// we suggest running convert-hadoop-conf.rb to generate "configuration" section and paste
the output here
"configuration" : {
"hadoop": {
"core-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// "io.file.buffer.size": "4096"
},
"hdfs-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
"mapred-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
"hadoop-env.sh": {
// "HADOOP_HEAPSIZE": "",
// "HADOOP_NAMENODE_OPTS": "",
// "HADOOP_DATANODE_OPTS": "",
// "HADOOP_SECONDARYNAMENODE_OPTS": "",
// "HADOOP_JOBTRACKER_OPTS": "",
// "HADOOP_TASKTRACKER_OPTS": "",
// "HADOOP_CLASSPATH": "",
// "JAVA_HOME": "",
// "PATH": ""
},
"log4j.properties": {
// "hadoop.root.logger": "DEBUG,DRFA",
// "hadoop.security.logger": "DEBUG,DRFA"
},
"fair-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// "text": "the full content of fair-scheduler.xml in one line"
},
"capacity-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
},
"mapred-queue-acls.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/cluster_setup.html#Configuring+the+Hadoop+Daemons
// "mapred.queue.queue-name.acl-submit-job": "",
// "mapred.queue.queue-name.acl-administer-jobs", ""
}
},
VMware, Inc. 47
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Créer un cluster du travailleur uniquement HBase avec un cluster HA HDFS
namenode externe
Vous pouvez créer un cluster du travailleur uniquement HBase avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Les clusters du travailleur uniquement MapReduce v1 et les clusters uniquement HBase créés à l'aide
n
de la distribution MapR ne sont pas pris en charge.
Prérequis
Déployez le vApp Serengeti.
n
48 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
MapReduce est une infrastructure qui permet de traiter les problèmes en parallèle à travers des jeux de
données volumineux. L'infrastructure MapReduce distribue à chaque nœud du réseau un certain nombre
d'opérations sur le jeu de données.
Créer un cluster MapReduce v2 (YARN) avec l'interface de ligne de commande
Serengeti
Vous pouvez créer des clusters MapReduce v2 (YARN) si vous voulez créer un cluster qui sépare les
composants de traitement et de gestion des ressources.
Pour créer un cluster MapReduce v2 (YARN), créez un fichier de spécification de cluster inspiré du
fichier /opt/serengeti/samples/default_hadoop_yarn_cluster.json, puis spécifiez le paramètre --specFile
et votre fichier de spécification de cluster dans la commande cluster create ....
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc. 49
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande cluster create ....
Cet exemple crée un cluster MapReduce v2 personnalisé à l'aide de la distribution CDH4 selon
l'exemple de fichier de spécification de cluster default_hadoop_yarn_cluster.json.
Créer un cluster du travailleur uniquement MapReduce v1 avec un cluster HA
HDFS namenode externe
Vous pouvez créer un cluster du travailleur uniquement MapReduce v1 avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Vous ne pouvez pas utiliser la distribution MapR pour créer des clusters du travailleur uniquement
n
MapReduce v1 et des clusters uniquement HBase.
Prérequis
Démarrez le vApp Big Data Extensions.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_mr1.json
2Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
3Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
4Modifiez la section de configuration du fichier de spécification de cluster du travailleur MapReduce
comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du
cluster externe.
Créer un cluster du travailleur uniquement MapReduce v2 avec un cluster HA
HDFS namenode externe
Vous pouvez créer un cluster du travailleur uniquement MapReduce v2 (Yarn) avec deux namenodes dans
une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en
cas de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Vous ne pouvez pas utiliser une distribution MapR pour déployer des clusters du travailleur
n
uniquement MapReduce v1 et des clusters uniquement HBase.
Prérequis
Démarrez le vApp Big Data Extensions.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_yarn.json
2Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
VMware, Inc. 51
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3Remplacez le hostname-of-resourcemanager du fichier de spécification par le FQDN ou l'adresse IP du
ResourceManager du cluster externe.
4Modifiez la section de configuration du fichier de spécification de cluster du travailleur uniquement
Yarn comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml
du cluster externe.
Vous pouvez séparer les nœuds de données et de calcul d'un cluster Hadoop. Vous pouvez aussi contrôler
la façon dont les nœuds sont placés sur les hôtes vSphere ESXi de votre environnement.
Vous pouvez créer un cluster de calcul uniquement pour exécuter les tâches MapReduce. Les clusters de
calcul uniquement n'exécutent que les services MapReduce qui lisent les données à partir de clusters HDFS
externes et qui n'ont pas besoin de stocker les données.
Les gestionnaires d'applications Ambari et Cloudera Manager ne prennent en charge ni la séparation
calcul/données, ni les clusters de calcul uniquement.
52 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster distinct données-calcul avec prise en charge de la topologie et
contraintes de placement
Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de
topologie et de stratégie de placement afin de répartir les nœuds entre les racks physiques et les machines
virtuelles.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
Prérequis
Démarrez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Créez un fichier d'informations de mappage rack/hôte.
n
Téléchargez le fichier rack/hôte sur le serveur Serengeti avec la commande topology upload.
n
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds, la topologie et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster a des contraintes groupAssociations et instancePerHost pour le groupe de
nœuds de calcul et une contrainte groupRacks pour le groupe de nœuds de données.
Quatre nœuds de données et huit nœuds de calcul sont placés sur les quatre mêmes hôtes ESXi, qui
sont équitablement sélectionnés depuis rack1, rack2 et rack3. Chaque hôte ESXi possède un nœud de
données et deux nœuds de calcul. Comme défini pour le groupe de nœuds de calcul, les nœuds de
calcul sont placés uniquement sur les hôtes ESXi ayant des nœuds de données.
Cette définition de cluster nécessite que vous configuriez les banques de données et les pools de
ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti
exécute les placements nécessaires pendant le déploiement.
{
"nodeGroups":[
{
"name": "master",
"roles": [
VMware, Inc. 53
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Créer un cluster distinct données-calcul sans contraintes de stratégie de
placement
Vous pouvez créer un cluster avec des nœuds données et calcul distincts sans contraintes de placement de
nœud.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, sans contraintes de stratégie
de placement. Quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines
virtuelles individuelles. Le nombre de nœuds est configuré par l'attribut instanceNum.
Créer un cluster distinct données-calcul avec contraintes de stratégie de
placement
Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de
stratégie de placement afin de répartir les nœuds entre les machines virtuelles à votre guise.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, et chaque groupe de nœuds
a une contrainte placementPolicy. Après un provisionnement réussi, quatre nœuds de données et huit
nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Avec la contrainte
instancePerHost=1, les quatre nœuds de données sont placés sur quatre hôtes ESXi. Les huit nœuds de
calcul sont placé sur quatre hôtes ESXi : deux nœuds sur chaque hôte ESXi.
Cette spécification de cluster nécessite que vous configuriez les banques de données et les pools de
ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti
exécute les placements nécessaires pendant le déploiement.
Créer un cluster de calcul uniquement avec le gestionnaire d'applications par
défaut
Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans
un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne
fonctionne pas.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
Serengeti compute_only_cluster.json disponible dans le répertoire Serengeti cli/samples.
2Ajoutez le contenu suivant à un nouveau fichier de spécification de cluster.
Dans cet exemple, le fichier externalHDFS pointe vers un HDFS. Attribuez le rôle hadoop_jobtracker au
groupe de nœuds master et le rôle hadoop_tasktracker au groupe de nœuds worker.
Le champ externalHDFS est en conflit avec les groupes de nœuds ayant les rôles hadoop_namenode et
hadoop_datanode. Ce conflit peut entraîner l'échec de la création du cluster ou, si la création réussit, il se
peut que le cluster ne fonctionne pas correctement. Pour éviter ce problème, définissez uniquement un
seul HDFS.
Créer un cluster de calcul uniquement avec le gestionnaire d'applications
Cloudera Manager
Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
Vous pouvez utiliser un gestionnaire d'applications Cloudera Manager avec un système HDFS externe.
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et
préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que
cluster HDFS externe », page 43
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
yarn_compute_only_cluster.json disponible dans le répertoire /opt/serengeti/samples/clouderamanager/ du serveur Serengeti.
60 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
2Ajoutez le code suivant à votre nouveau fichier de spécification de cluster.
Dans ce fichier de spécification de cluster, le champ default_fs_name pointe vers un URI HDFS
Namenode et le champ webhdfs_url pointe vers une URL Web HDFS.
Créer un cluster de calcul uniquement avec Ambari Application Manager et
Isilon
Vous pouvez créer un cluster de calcul uniquement avec le gestionnaire d'applications Ambari à l'aide de
Isilon OneFS. Pour créer un cluster de calcul uniquement à l'aide de Isilon OneFS, vous devez activer
Isilon SmartConnect (équilibrage de la charge réseau).
Pour utiliser EMC Isilon OneFS comme cluster HDFS externe du cluster HBase uniquement, vous devez
créer et configurer des utilisateurs et des groupes d'utilisateurs et préparer votre environnement
Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop par défaut, ajoutez une
n
ou plusieurs distributions de fournisseurs à votre environnementBig Data Extensions. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Vérifiez que la distribution Hadoop que vous souhaitez utiliser est compatible avec Isilon OneFS.
n
Rendez-vous sur le site Internet EMC et consultez la section Distributions Hadoop prises en charge
dans OneFS.
Procédure
1Créez un fichier de spécification de cluster modélisé sur l'un des fichiers exemples de spécification de
cluster suivants : hdp_v2_1_yarn_compute_only_cluster.json ou
hdp_v2_2_yarn_compute_only_cluster.json. Vous trouverez ces fichiers exemples dans le
répertoire /opt/serengeti/samples/ambari/ du serveur Serengeti.
Vérifiez que votre cluster géré de calcul uniquement Ambari est créé correctement, avec la configuration
nécessaire pour votre environnement et votre utilisation.
Créer un cluster de calcul du travailleur uniquement avec un cluster HDFS HA
sans Namenode
Si vous avez déjà un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus
de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster du
travailleur uniquement. Le cluster du travailleur uniquement fait partie du cluster Hadoop physique et peut
être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode
virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode
virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster
physique existant ou à un cluster Hadoop virtuel.
Restrictions.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les
n
gestionnaires d'applications Ambari et Cloudera Manager.
Ces options ne sont pas prises en charge sur les clusters de calcul du
n
travailleur uniquement.
--appmanager appmanager_name
n
--type cluster_type
n
--hdfsNetworkName hdfs_network_name
n
--mapredNetworkName mapred_network_name
n
Prérequis
Démarrez le vApp Big Data Extensions.
n
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
2Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de nœud
du cluster HDFS externe.
3Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
VMware, Inc. 63
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
4Modifiez la section de configuration du fichier de spécification du cluster MapReduce du travailleur
uniquement. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
À propos des clusters personnalisés
Vous pouvez utiliser un fichier de spécification de cluster existant pour créer des clusters à l'aide de la
même configuration que celle des clusters précédemment créés. Vous pouvez aussi modifier le fichier de
spécification de cluster pour personnaliser la configuration du cluster.
Créer un cluster Hadoop Serengeti par défaut avec l'interface de ligne de
commande Serengeti
Vous pouvez créer autant de clusters que vous le voulez dans votre environnement Serengeti, mais votre
environnement doit satisfaire toutes les conditions préalables.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Déployez un cluster Hadoop Serengeti par défaut sur vSphere.
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop fournie, ajoutez une
n
ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware
vSphere Big Data Extensions.
cluster create --name cluster_name
Les seuls caractères valides dans les noms de clusters sont les caractères alphanumériques et les traits
de soulignement. Quand vous choisissez le nom de cluster, tenez également compte du nom de vApp
applicable. Ensemble, les noms de vApp et du cluster doivent comprendre moins de 80 caractères.
Pendant le processus de déploiement, les mises à jour en progression en temps réel apparaissent sur la ligne
de commande.
Suivant
Lorsque le déploiement est terminé, vous pouvez exécuter les commandes Hadoop et afficher les adresses IP
des machines virtuelles des nœuds Hadoop à partir de l'Serengeti CLI.
64 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster de base avec l'interface de ligne de commande Serengeti
Vous pouvez créer un cluster de base dans votre environnement Serengeti. Un cluster de base est un groupe
de machines virtuelles provisionnées et gérées par Serengeti. Serengeti vous permet de planifier et de
provisionner les machines virtuelles selon vos spécifications et d'utiliser les machines virtuelles pour
installer les applications Big Data.
Le cluster de base n'installe pas les packages d'application Big Data utilisés lors de la création d'un cluster.
Vous pouvez à la place installer et gérer des applications Big Data avec des outils de gestion d'application
tiers, tels qu'Ambari ou Cloudera Manager, au sein de votre environnement Big Data Extensions, et
l'intégrer à votre logiciel Hadoop. Le cluster de base ne déploie pas de cluster. Vous devez déployer les
logiciels sur les machines virtuelles à l'aide d'un outil de gestion d'application tiers externe.
Le package Serengeti inclut un exemple annoté de fichier de spécification de cluster que vous pouvez
utiliser comme exemple lorsque vous créez votre fichier de spécification de cluster de base. Dans le serveur
de gestion Serengeti, l'exemple de fichier de spécification se trouve
sur /opt/serengeti/samples/basic_cluster.json. Vous pouvez modifier les valeurs de configuration de
l'exemple de fichier de spécification de cluster pour répondre à vos impératifs. La seule valeur que vous ne
pouvez pas modifier est celle attribuée au rôle de chaque groupe de nœuds, qui doit toujours être basic.
Vous pouvez déployer un cluster de base avec le plug-in Big Data Extension à l'aide d'un fichier de
spécification de cluster personnalisé.
Pour déployer les logiciels au sein des machines virtuelles du cluster de base, utilisez la commande cluster
list --detail ou exécutez serengeti-ssh.sh cluster_name pour obtenir l'adresse IP de la machine
virtuelle. Vous pouvez alors utiliser l'adresse IP avec des applications de gestion telles qu'Ambari ou
Cloudera Manager pour provisionner la machine virtuelle avec les logiciels de votre choix. Vous pouvez
configurer l'application de gestion pour qu'elle utilise le nom d'utilisateur Serengeti et le mot de passe que
vous avez spécifiés lors de la création du cluster de base au sein de Big Data Extensions lorsque l'outil de
gestion a besoin d'un nom d'utilisateur et d'un mot de passe pour se connecter aux machines virtuelles.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster, ainsi que le logiciel Big
n
Data que vous prévoyez de déployer.
Procédure
1Créez un fichier de spécification pour définir les caractéristiques du cluster de base.
Vous devez utiliser le rôle basic pour chaque groupe de nœuds que vous définissez pour le cluster de
base.
REMARQUE Lors de la création d'un cluster de base, vous n'avez pas besoin de spécifier un type de
distribution Hadoop à l'aide de l'option --distro. La raison en est qu'il n'y a aucune distribution
Hadoop en cours d'installation au sein du cluster de base à gérer par Serengeti.
Créer un cluster avec un gestionnaire d'applications à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour ajouter un cluster avec un gestionnaire d'applications autre que le
gestionnaire d'applications par défaut. Vous pouvez ensuite gérer votre cluster avec le nouveau gestionnaire
d'applications.
REMARQUE Si vous souhaitez créer un référentiel Yum local, vous devez créer le référentiel avant de créer le
cluster.
Prérequis
Connectez-vous à un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster. Pour plus
n
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire
d'applications.
Vérifiez que vous avez plusieurs distributions si vous voulez utiliser une distribution autre que la
n
distribution par défaut. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Si vous n'utilisez pas le paramètre appManager, c'est le gestionnaire d'applications par défaut qui est
utilisé.
Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web
Client
Si vous disposez déjà d'un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant
plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster de
travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et
peut être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode
virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode
virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster
physique existant ou à un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
Prérequis
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Procédure
1Cliquez sur Créer un cluster Big Data dans le volet Objets.
2Dans l'assistant de création du cluster Big Data, choisissez la même distribution que le cluster Hadoop.
3Définissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4Définissez l'URL ComputeMaster nodeManager ip ou fqdn.
5Suivez la procédure indiquée dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont
enregistrés auprès du gestionnaire de ressources.
Créer un cluster avec un mot de passe administrateur à l'aide de l'interface de
ligne de commande Serengeti
Lorsque vous créez un cluster, vous pouvez attribuer un mot de passe administrateur personnalisé à tous les
nœuds du cluster. Les mots de passe d'administrateur personnalisés vous permettent de vous connecter
directement aux nœuds au lieu d'avoir à vous connecter d'abord au serveur de gestion Serengeti.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc. 67
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande cluster create et incluez le paramètre --password.
cluster create --name cluster_name --password
3Entrez votre mot de passe personnalisé, puis entrez-le à nouveau.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Votre mot de passe personnalisé est attribué à tous les nœuds du cluster.
Créer un cluster avec une distribution disponible à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez sélectionner la distribution Hadoop à utiliser lorsque vous déployez un cluster. Si vous ne
spécifiez pas de distribution Hadoop, le cluster obtenu est créé à l'aide de la distribution par défaut, Apache
Bigtop.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande cluster create et incluez le paramètre --distro.
La valeur du paramètre --distro doit correspondre à un nom de distribution affiché par la commande
distro list.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
L'exemple déploie un cluster avec la distribution Cloudera CDH :
cluster create --name clusterName --distro cdh
L'exemple crée un cluster personnalisé nommé mycdh qui utilise la distribution Hadoop CDH5 et qui est
configuré selon l'exemple de fichier de spécification de
cluster /opt/serengeti/samples/default_cdh4_ha_and_federation_hadoop_cluster.json. Dans cet
exemple de fichier, nameservice0 et nameservice1 sont fédérés. Autrement dit, nameservice0 et
nameservice1 sont indépendants et ne nécessitent pas d'être coordonnés entre eux. Les nœuds
NameNode du groupe de nœuds nameservice0 prennent en charge HDFS2 HA. Dans Serengeti, les
noms de groupes de nœuds de noms sont utilisés comme noms de service pour HDFS2.
Créer un cluster à plusieurs réseaux à l'aide de l'interface de ligne de
commande Serengeti
Lorsque vous créez un cluster, vous pouvez distribuer la gestion, le système de fichiers HDFS et le trafic
MapReduce pour séparer les réseaux. Vous pouvez souhaiter utiliser des réseaux distincts pour améliorer
les performances ou isoler le trafic à des fins de sécurité.
Pour optimiser les performances, utilisez le même réseau pour le trafic HDFS et MapReduce dans les
clusters Hadoop et Hadoop+HBase. Les clusters HBase utilisent le réseau HDFS pour le trafic lié aux
services HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs réseaux pour les clusters qui utilisent la distribution
Hadoop MapR.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande cluster create et incluez les paramètres --networkName, --hdfsNetworkName et
Si vous omettez l'un des paramètres réseau facultatifs, le trafic associé à ce paramètre réseau est
acheminé sur le réseau de gestion spécifié par le paramètre --networkName.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
La gestion du cluster, le système de fichiers HDFS et le trafic MapReduce sont répartis entre les réseaux
spécifiés.
Créer un cluster avec ressources assignées à l'aide de l'interface de ligne de
commande Serengeti
Par défaut, lorsque vous utilisez Serengeti pour déployer un cluster Hadoop, le cluster peut contenir tout ou
partie des ressources disponibles : le pool de ressources vCenter Server pour le CPU et la mémoire des
machines virtuelles, les banques de données pour le stockage de la machine virtuelle et un réseau. Vous
pouvez affecter les ressources que le cluster utilise en spécifiant des pools de ressources spécifiques, des
banques de données et/ou un réseau lorsque vous créez le cluster Hadoop.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
VMware, Inc. 69
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande cluster create et spécifiez tout ou partie des paramètres de ressource de la
commande.
Cet exemple déploie un cluster nommé myHadoop sur la banque de données myDS, sous le pool de
ressources myRP, et utilise le réseau myNW pour les communications des machines virtuelles.
Créer un cluster avec un nombre quelconque de nœuds master, worker et
client
Vous pouvez créer un cluster Hadoop avec un nombre quelconque de nœuds master, worker et client.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster a une machine virtuelle maître de taille MOYENNE, cinq machines
virtuelles du travailleur de taille PETITE et une machine virtuelle cliente de taille PETITE. L'attribut
instanceNum configure le nombre de machines virtuelles d'un nœud.
Créer un cluster Hadoop ou HBase personnalisé avec l'interface de ligne de
commande Serengeti
Vous pouvez créer des clusters personnalisés en fonction de vos exigences, y compris le nombre de nœuds,
la taille du disque et de la RAM de la machine virtuelle, le nombre de CPU, etc.
Le package Serengeti inclut plusieurs exemples annotés de fichier de spécification de cluster que vous
pouvez utiliser comme modèles lorsque vous créez vos fichiers de spécification personnalisés.
Dans le serveur de gestion Serengeti, les exemples de fichiers de spécification de cluster se trouvent
n
dans /opt/serengeti/samples.
Si vous utilisez le client d'interface de ligne de commande distant Serengeti, les exemples de fichiers de
n
spécification sont dans le répertoire client.
La modification d'un rôle de groupe de nœuds peut entraîner l'échec du processus de création de cluster.
Par exemple, comme les clusters faisant l'objet de travaux requièrent un NameNode, s'il n'existe aucun
nœud NameNode après que vous avez modifié les rôles des groupes de nœuds, vous ne pouvez pas créer
de cluster.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
2Accédez à l'interface de ligne de commande Serengeti.
VMware, Inc. 71
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
Utilisez le chemin d'accès complet pour spécifier le fichier.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
72 VMware, Inc.
Gestion des clusters Hadoop et
HBase6
Vous pouvez utiliser vSphere Web Client pour démarrer et arrêter votre cluster Big Data, et pour modifier la
configuration du cluster. Vous pouvez également gérer un cluster à l'aide de l'interface de ligne de
commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de
cluster vers d'autres hôtes pour les clusters créés avec Big Data Extensions. L'utilisation de ces fonctions de
gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines
opérations de Big Data Extensions telles que la récupération de défaillances de disque.
Ce chapitre aborde les rubriques suivantes :
« Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Agrandir un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti », page 75
n
« Reconfigurer un cluster avec l'interface de ligne de commande Serengeti », page 75
n
« Supprimer un cluster avec l'interface de ligne de commande Serengeti », page 78
n
« À propos de vSphere High Availability et de vSphere Fault Tolerance », page 78
n
« Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti », page 78
n
« Développer un cluster à l'aide de l'interface de ligne de commande », page 78
n
« Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti »,
n
page 80
« Effectuer la récupération d'une machine virtuelle de nœud de cluster », page 80
n
« Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
n
d'interface de ligne de commande Serengeti », page 81
VMware, Inc.
73
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Démarrer et arrêter un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez arrêter un cluster en cours d'exécution et démarrer un cluster arrêté à partir de l'interface de
ligne de commande Serengeti. Lorsque vous démarrez ou arrêtez un cluster via Cloudera Manager ou
Ambari, seuls les services sont démarrés ou arrêtés. Cependant, lorsque vous démarrez ou arrêtez un cluster
via Big Data Extensions, non seulement les services, mais également les machines virtuelles sont démarrés
ou arrêtés.
Prérequis
Vérifiez que le cluster est provisionné.
n
Vérifiez que suffisamment de ressources, notamment en termes de CPU et de mémoire, sont
n
disponibles pour démarrer les machines virtuelles du cluster Hadoop.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande cluster stop.
cluster stop –-name name_of_cluster_to_stop
3Exécutez la commande cluster start.
cluster start –-name name_of_cluster_to_start
Agrandir un cluster avec l'interface de ligne de commande Serengeti
Vous spécifiez le nombre de nœuds du cluster lorsque vous créez des clusters Hadoop et HBase. Par la suite,
vous pouvez agrandir le cluster en augmentant le nombre de nœuds worker et le nombre de nœuds client.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds d'un cluster, le mot de
passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération d'agrandissement du cluster.
Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le
cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial
de l'administrateur pour le cluster lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires
sont utilisés pour les nouveaux nœuds.
Prérequis
Vérifiez que le cluster a démarré.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commande cluster resize.
Pour node_type, spécifiez worker ou client. Pour la valeur num_nodes du paramètreinstanceNum, utilisez
tout nombre supérieur au nombre actuel d'instances node_type.
Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de
commande Serengeti
Vous pouvez augmenter ou réduire la capacité de calcul et la RAM d'un cluster afin d'empêcher la
contention des ressources mémoire des tâches en cours d'exécution.
Serengeti vous permet d'ajuster les ressources de calcul et de la mémoire, sans augmenter la charge de
travail sur le nœud master. Si l'augmentation ou la diminution du CPU d'un cluster n'aboutit pas pour un
nœud, ce qui est généralement dû à l'insuffisance des ressources disponibles, le nœud est rétabli à sa valeur
de CPU originale. Si l'augmentation ou la diminution de la RAM d'un cluster n'aboutit pas pour un nœud,
ce qui est généralement dû à l'insuffisance des ressources, le disque d'échange conserve sa nouvelle valeur.
Le disque n'est pas rétabli à la valeur d'origine de la mémoire.
Même si tous les types de nœuds prennent en charge la mise à l'échelle du CPU et de la RAM, ne mettez pas
à l'échelle le nœud master d'un cluster, carSerengeti arrête la machine virtuelle lors du processus de mise à
l'échelle.
Les valeurs maximales pour le CPU et la RAM dépendent de la version de la machine virtuelle.
Tableau 6‑1. Valeurs maximales pour le CPU et la RAM
Version de machine virtuelleNombre maximal de CPURAM maximale, en Go
78255
8321 011
9641 011
10641 011
Prérequis
Démarrez le cluster s'il n'est pas en cours d'exécution.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande cluster resize pour modifier le nombre de CPU ou la quantité de RAM d'un
cluster.
Les types de nœud sont travailleur ou client.
n
Spécifiez l'un et/ou l'autre des paramètres de mise à l'échelle : --cpuNumPerNode ou--
Reconfigurer un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez reconfigurer tout cluster big data que vous créez avec Big Data Extensions.
La configuration des clusters est spécifiée par des attributs dans des fichiers de configuration XML de
distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les
fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphereBig Data Extensions.
VMware, Inc. 75
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les
fichiers de distribution Hadoop, reportez-vous à Chapitre 8, « Référence de spécification de cluster »,
page 87.
REMARQUE Utilisez toujours la commande cluster config pour modifier les paramètres spécifiés par les
fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effacées si la
machine virtuelle redémarre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Procédure
1Utilisez la commande cluster export pour exporter le fichier de spécification pour le cluster que vous
Nom du cluster que vous souhaitez reconfigurer.
Le chemin du système de fichiers vers lequel vous voulez exporter le
fichier de spécification.
Le nom de l'étiquette à attribuer au fichier de spécification du cluster
exporté.
2Modifiez les informations de configuration situées près de la fin du fichier de spécification du cluster
exporté.
Si vous modélisez votre fichier de configuration sur des fichiers de configuration XML Hadoop
existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format
JSON requis.
…
"configuration": {
"hadoop": {
"core-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// "io.file.buffer.size": "4096"
},
"hdfs-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
"mapred-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
"hadoop-env.sh": {
// "HADOOP_HEAPSIZE": "",
// "HADOOP_NAMENODE_OPTS": "",
// "HADOOP_DATANODE_OPTS": "",
// "HADOOP_SECONDARYNAMENODE_OPTS": "",
// "HADOOP_JOBTRACKER_OPTS": "",
// "HADOOP_TASKTRACKER_OPTS": "",
// "HADOOP_CLASSPATH": "",
// "JAVA_HOME": "",
76 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
// "PATH": "",
},
"log4j.properties": {
// "hadoop.root.logger": "DEBUG, DRFA ",
// "hadoop.security.logger": "DEBUG, DRFA ",
},
"fair-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// "text": "the full content of fair-scheduler.xml in one line"
},
"capacity-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
}
}
}
…
3(Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le répertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
spécification de cluster.
Cette opération permet aux démons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent
sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de spécification du cluster
pour permettre à Hadoop d'utiliser les fichiers JAR.
6(Facultatif) Réinitialisez un attribut de configuration existant à sa valeur par défaut.
aSupprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques inversées (//).
bExécutez à nouveau la commande cluster config.
VMware, Inc. 77
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Supprimer un cluster avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un cluster dont vous n'avez plus besoin, qu'il soit en cours d'exécution ou pas.
Quand un cluster est supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commande cluster delete.
cluster delete --name cluster_name
À propos de vSphere High Availability et de vSphere Fault Tolerance
Le serveur de gestion Serengeti tire parti de la haute disponibilité vSphere pour protéger la machine
virtuelle du nœud Hadoop master, qui peut être surveillée par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arrête de manière inattendue, vSphere redémarre la
machine virtuelle Hadoop dans un autre hôte afin de réduire la période d'interruption non planifiée. Si
vSphere Fault Tolerance est configuré et que la machine virtuelle du nœud master s'arrête de manière
inattendue en raison du basculement ou de la perte de connectivité réseau d'un hôte, le nœud secondaire est
utilisé, sans provoquer d'interruption de service.
Reconfigurer un groupe de nœuds avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer les groupes de nœuds en modifiant les données de configuration des groupes de
nœuds du fichier de spécification de cluster associé. Lorsque vous configurez un groupe de nœuds, sa
configuration remplace toute configuration de niveau cluster du même nom.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commandecluster export pour exporter le fichier de spécification de cluster du cluster.
Si l'opération cluster expand échoue, l'état du cluster change et devient PROVISION_ERROR. Pour
effectuer une récupération à partir de cette condition, vérifiez que la syntaxe utilisée dans le fichier de
spécification du cluster est correcte, puis exécutez de nouveau la commande cluster expand pour
résoudre cette défaillance.
VMware, Inc. 79
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Suivant
Vous pouvez vérifier que les groupes de nœuds ont bien été ajoutés au cluster à l'aide de la commande
cluster list. Reportez-vous à « Afficher les clusters provisionnés avec l'interface de ligne de commande
Serengeti », page 85.
Récupérer d'une défaillance disque avec le client d'interface de ligne
de commande Serengeti
Dans le cas d'une défaillance de disque dans un cluster, si le disque ne joue aucun rôle de gestion tel que
NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez récupérer à l'aide la
commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des données (configurés
en tant que JBOD). En cas de défaillance de plusieurs disques, le nœud de données Hadoop peut s'éteindre.
Big Data Extensions vous permet de récupérer des défaillances de disque.
Serengeti prend en charge la récupération après un échange ou une défaillance de disque sur toutes les
distributions Hadoop prises en charge. Les disques sont récupérés et démarrés l'un après l'autre pour éviter
la perte temporaire de plusieurs nœuds à la fois. Les nouveaux disques correspondent au type de stockage
et aux stratégies de placement des disques défaillants qu'ils remplacent.
La distribution MapR ne prend pas en charge la récupération d'une défaillance de disque à l'aide de la
commande cluster fix.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds du cluster, le mot de passe
modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous
avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce
mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de
l'administrateur pour le cluster lorsque vous avez créé le cluster, de nouveaux mots de passe aléatoires sont
utilisés pour les nouveaux nœuds.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
Effectuer la récupération d'une machine virtuelle de nœud de cluster
Vous pouvez récupérer des machines virtuelles de nœud de cluster qui ont été dissociées de leur identifiant
d'objet géré (MOID) ou de leur pool de ressources et de leur nom de machine virtuelle.
Dans de rares situations, l'identifiant d'objet géré (MOID) d'une machine virtuelle de nœud de cluster peut
changer. Cela peut se produire lorsqu'un hôte plante et se réenregistre sur vCenter Server. Lorsque BDE ne
parvient pas à localiser une machine virtuelle de nœud dans vCenter Server par son MOID, l'application
essaie d'abord de localiser le nœud par son pool de ressources et son nom de machine virtuelle. Si cela
s'avère impossible, vous pouvez récupérer la machine virtuelle de nœud de cluster à l'aide de la commande
cluster recover.
Procédure
1Accédez à l'Serengeti CLI.
80 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2Exécutez la commande cluster recover pour mettre à jour le cluster et récupérer la machine virtuelle
de nœud de cluster.
cluster recover
Suivant
Vous pouvez vérifier que la machine virtuelle de nœud de cluster a été récupérée avec succès.
Passer en mode maintenance pour effectuer la sauvegarde et la
restauration à l'aide du client d'interface de ligne de commande
Serengeti
Avant d'effectuer les opérations de sauvegarde et de restauration, ou d'autres tâches de maintenance, vous
devez placer Big Data Extensions en mode maintenance.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1Connectez-vous à Serengeti Management Server.
2Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou vérifier l'état de maintenance.
serengeti-maintenance.sh on | off | status
OptionDescription
activé
désactivé
Statut
Active le mode maintenance. Lorsque vous entrez en mode maintenance,
Big Data Extensions continue à exécuter les tâches déjà commencées, mais
ne répond pas aux nouvelles requêtes.
Désactive le mode maintenance et remet Big Data Extensions dans son état
de fonctionnement normal.
Affiche l'état de maintenance de Big Data Extensions.
n
L'état sécurisé indique que les opérations de sauvegarde et les autres
tâches de maintenance peuvent être effectuées en toute sécurité dans
votre déploiement Big Data Extensions.
n
L'état désactivé indique que le mode maintenance a été désactivé et
que les tâches de maintenance telles que la sauvegarde et la
restauration ne peuvent pas être effectuées en toute sécurité.
n
L'état activé signifie que Big Data Extensions est entré en mode
maintenance, mais que les opérations de sauvegarde et de restauration
ne peuvent pas encore être effectuées en toute sécurité. Vous devez
attendre que le système renvoie le message d'état sécurisé.
Pour placer votre déploiement Big Data Extensions en mode maintenance, exécutez le script serengeti-
maintenance.sh avec l'option on.
serengeti-maintenance.sh on
VMware, Inc. 81
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3Vérifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance
entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de
manière répétée jusqu'à obtenir le message d'état du système sécurisé.
serengeti-maintenance.sh status
safe
4Effectuez les tâches de maintenance système souhaitées.
5Une fois que vous avez terminé, faites repasser Big Data Extensions à son état de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
82 VMware, Inc.
Surveillance de l'environnement Big
Data Extensions7
Vous pouvez surveiller l'état des clusters déployés sur Serengeti, y compris leurs banques de données, leurs
réseaux et leurs pools de ressources à l'aide de l'interface de ligne de commande Serengeti. Vous pouvez
également afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont
également disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
n
Serengeti », page 83
« Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti »,
n
page 84
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
n
l'interface de ligne de commande Serengeti », page 84
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
n
de l'interface de ligne de commande Serengeti », page 84
« Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les banques de données avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les réseaux avec l'interface de ligne de commande Serengeti », page 86
n
« Afficher les pools de ressources avec l'interface de ligne de commandeSerengeti », page 86
n
Afficher la liste des gestionnaires d'applications à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
VMware, Inc.
83
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les distributions Hadoop disponibles avec l'interface de ligne
de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous utilisez la
commande distro list pour afficher la liste des distributions Hadoop disponibles dans votre déploiement
Serengeti. Lorsque vous créez des clusters, vous pouvez utiliser toute distribution Hadoop disponible.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande distro list.
Les distributions Hadoop disponibles sont affichées, ainsi que leurs packages.
Suivant
Avant d'utiliser une distribution, vérifiez qu'elle inclut les services que vous voulez déployer. S'il manque
des services, ajoutez les packages appropriés à la distribution.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire
d'applications et la distribution à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
84 VMware, Inc.
Chapitre 7 Surveillance de l'environnement Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1Accédez à l'interface de ligne de commande Serengeti.
2Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Afficher les clusters provisionnés avec l'interface de ligne de
commande Serengeti
À partir de l'Serengeti CLI, vous pouvez afficher les clusters provisionnés qui sont dans le déploiement
Serengeti.
Procédure
1Accédez à l'Serengeti CLI.
2Exécutez la commande cluster list.
cluster list
Cet exemple affiche un cluster spécifique en incluant le paramètre --name.
cluster list --name cluster_name
Cet exemple affiche des informations détaillées sur un cluster spécifique en incluant les paramètres --
name et --detail.
cluster list --name cluster_name –-detail
Afficher les banques de données avec l'interface de ligne de
commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les banques de données qui
sont dans le déploiement Serengeti.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commande datastore list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
datastore list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les
paramètres --name et --detail.
datastore list --name datastore_name --detail
VMware, Inc. 85
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les réseaux avec l'interface de ligne de commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les réseaux qui sont dans le
déploiement Serengeti.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commande network list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
network list --detail
Cet exemple affiche des informations détaillées sur un réseau spécifique en incluant les paramètres --
name et --detail.
network list --name network_name --detail
Afficher les pools de ressources avec l'interface de ligne de
commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les pools de ressources qui
sont dans le déploiement Serengeti.
Procédure
1Accédez à l'interface de ligne de commandeSerengeti.
2Exécutez la commande resourcepool list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
resourcepool list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les
paramètres --name et --detail.
resourcepool list --name resourcepool_name –-detail
86 VMware, Inc.
Référence de spécification de cluster8
Pour personnaliser vos clusters, vous devez savoir utiliser les fichiers de spécification de cluster Serengeti et
définir les prérequis de cluster avec les différents attributs et objets. Après avoir créé vos fichiers de
configuration, vous pouvez les convertir au format de fichier JSON.
Ce chapitre aborde les rubriques suivantes :
« Conditions requises de fichier de spécification de cluster », page 87
n
« Conditions requises de la définition de cluster », page 88
n
« Fichier de spécification de cluster annoté », page 88
n
« Définitions des attributs de spécification de cluster », page 91
n
« Attributs Hadoop de la liste blanche et de la liste noire », page 94
n
« Convertir les fichiers XML Hadoop en Serengetifichiers JSON », page 96
n
Conditions requises de fichier de spécification de cluster
Un fichier de spécification de cluster est un fichier texte avec les attributs de configuration fournis dans une
structure au format JSON. Les fichiers de spécification de cluster doivent respecter les prérequis relatifs à la
syntaxe, à l'utilisation des guillemets et aux commentaires.
VMware, Inc.
Pour analyser les fichiers de spécification de cluster, Serengeti utilise le processeur JSON Jackson. Pour
n
les obligations syntaxiques, telles que la stratégie de troncation des types « float », consultez la page
wiki « Jackson JSON Processor ».
Encadrez toujours les valeurs numériques par des guillemets. Par exemple :
n
"mapred.tasktracker.reduce.tasks.maximum" : "2"
Les guillemets garantissent que les entiers sont correctement interprétés au lieu d'être convertis en
nombres à virgule flottante double précision, ce qui peut entraîner des conséquences inattendues.
Vous ne pouvez inclure que des commentaires d'une seule ligne en utilisant le symbole dièse (#) pour
n
identifier le commentaire.
87
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Conditions requises de la définition de cluster
Les fichiers de spécification de cluster contiennent les définitions de configuration des clusters, telles que
leurs rôles et groupes de nœuds. Les définitions de cluster doivent adhérer aux conditions requises relatives
aux rôles de groupe de nœuds, aux rôles de cluster et aux nombres d'instance.
Une définition de cluster obéit aux conditions requises suivantes :
Les rôles de groupe de nœuds ne peuvent pas être vides. Vous pouvez déterminer les noms de rôle
n
valides pour votre distribution Hadoop à l'aide de la commande distro list.
Les rôles hadoop_namenode et hadoop_jobtracker doivent être configurés dans un seul groupe de
n
nœuds.
Dans les clusters Hadoop 2.0, tels que CDH4 ou Pivotal HD, le nombre d'instances peut être
n
supérieur à 1 pour créer un cluster HDFS HA ou Federation.
Sinon, le nombre total d'instances doit être égal à 1.
n
Les nombres d'instances de groupe de nœuds doivent être des nombres positifs.
n
Fichier de spécification de cluster annoté
Le fichier de spécification de cluster Serengeti définit les différents nœuds Hadoop et HBase ainsi que leurs
ressources à utiliser par le cluster Big Data. Vous pouvez utiliser ce fichier de spécification de cluster annoté
ainsi que les fichiers exemples du dossier /opt/serengeti/samples comme modèles à émuler lorsque vous
créez vos clusters Big Data.
Le code suivant est celui d'un fichier de spécification de cluster classique. Pour les annotations du code,
consultez Tableau 8-1.
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
83 ],
84 "configuration": {
85 }
86 }
Les éléments de définition de cluster sont spécifiés dans la table.
Tableau 8‑1. Exemple d'annotation de spécification de cluster
Ligne(s)AttributValeur d'exempleDescription
4nommaîtreNom du groupe de nœuds.
5-8rôlehadoop_namenode,
hadoop_jobtracker
9instanceNum1Nombre d'instances du groupe de nœuds.
10instanceTypeGRANDEType d'instance de groupe de nœuds.
11cpuNum2Nombre de CPU par machine virtuelle.
12memCapacityMB4096Taille de la RAM, en Mo, par machine virtuelle.
13-16stockageVoir les lignes 14-15 des
attributs de stockage
d'un groupe
14typePARTAGÉType de stockage.
15sizeGB20Taille du stockage.
17haFlagactivéProtection HA du groupe de nœuds.
Rôle du groupe de nœuds.
hadoop_namenode et hadoop_jobtracker sont
déployés sur la machine virtuelle du groupe de
nœuds.
Une seule machine virtuelle est créée pour le
groupe.
Il est possible d'avoir plusieurs instances de
n
hadoop_tasktracker, hadoop_datanode,
hadoop_client, pig et hive.
Pour les clusters HDFS1, vous ne pouvez
n
avoir qu'une seule instance de
hadoop_namenode et hadoop_jobtracker.
Pour les clusters HDFS2, vous pouvez avoir
n
deux instances hadoop_namenode.
Avec une distribution MapR, vous pouvez
n
configurer plusieurs instances de
hadoop_jobtracker.
Les types d'instance sont des spécifications de
machine virtuelle prédéfinies : elles
correspondent à une combinaison du nombre de
CPU, de la taille de la RAM et de la taille du
stockage. Les valeurs prédéfinies peuvent être
remplacées par le cpuNum, la memCapacityMB et
les attributs de stockage du fichier de
spécification du serveur Serengeti.
Cet attribut remplace le nombre de CPU virtuels
de la spécification de machine virtuelle
prédéfinie.
Cet attribut remplace la taille de la RAM de la
spécification de machine virtuelle prédéfinie.
Configuration requise pour le stockage d'un
nœud de groupes.
Le groupe de nœuds est déployé à l'aide d'un
stockage partagé uniquement.
Chaque nœud du groupe de nœuds est déployé
avec 20 Go d'espace disque disponible.
Le groupe de nœuds est déployé avec la
protection HA vSphere.
90 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑1. Exemple d'annotation de spécification de cluster (suite)
Ligne(s)AttributValeur d'exempleDescription
18-20rpNamesrp1Pools de ressources sous lesquels les machines
virtuelles du groupe de nœuds sont déployées.
Ces pools peuvent être un tableau de valeurs.
22-36Définition du
groupe de nœuds
pour le nœud de
données
37-44placementPoliciesVoir l'exemple de codeContraintes de la stratégie d'emplacement du
45-57Définition du
groupe de nœuds
pour le nœud de
calcul
58-65placementPoliciesVoir l'exemple de codeContraintes de la stratégie d'emplacement du
66-82Définition du
groupe de nœuds
pour le nœud client
83-86configurationVide dans l'exemple de
code
Voir les lignes 3-21, qui définissent les mêmes
attributs pour le nœud master.
Sur les lignes 34-35, les disques de données sont
placés sur les banques de données
dsNames4Data et les disques système sur les
banques de données dsNames4System.
groupe de nœuds de données.
Vous avez besoin d'au moins trois hôtes ESXi,
car il y a trois instances et chaque instance doit
impérativement se trouver sur son propre hôte.
Le groupe est provisionné sur les hôtes sur les
racks 1, 2 et 3 à l'aide d'un algorithme
ROUNDROBIN.
Voir les lignes 4-16, qui définissent les mêmes
attributs pour le nœud master.
groupe de nœuds de calcul.
Vous avez besoin d'au moins trois hôtes ESXi
pour satisfaire aux exigences de l'instance. Le
groupe de nœuds de calcul fait référence à un
groupe de nœuds de données via un type
STRICT. Les deux instances de calcul utilisent
une instance de données sur l'hôte ESXi.
L'association STRICT offre les meilleures
performances.
Voir les définitions de groupe de nœuds
précédentes.
Personnalisation de la configuration Hadoop.
Définitions des attributs de spécification de cluster
Les définitions des clusters incluent les attributs pour le cluster lui-même et pour chacun des groupes de
nœuds.
Attributs extérieurs de spécification de cluster
Les attributs extérieurs de spécification de cluster s'appliquent au cluster comme un tout.
Tableau 8‑2. Attributs extérieurs de spécification de cluster
AttributTypeObligatoire/facultatif Description
nodeGroupsobjetObligatoireUne ou plusieurs spécifications de groupe. Voir Tableau 8-3.
configurationobjetFacultatifPaires clé/valeur de la configuration Hadoop personnalisable.
externalHDFS string FacultatifValide seulement pour les clusters de calcul uniquement. URI de HDFS
externe.
VMware, Inc. 91
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Attributs et objets de groupes de nœuds de spécification de cluster.
Les attributs et objets de groupes de nœuds s'appliquent à un seul groupe de nœuds d'un cluster.
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster
AttributTypeObligatoire/facultatifDescription
nomstringObligatoireNom du groupe de nœuds défini par
l'utilisateur.
rôlesliste de chaînesObligatoireListe des services ou packages logiciels à
installer sur la machine virtuelle. Les
valeurs doivent correspondre aux rôles
affichés par la commande distro list.
instanceNumintegerObligatoireNombre de machines virtuelles du
groupe de nœuds :
Entier positif.
n
Généralement, vous pouvez avoir
n
plusieurs instances pour
hadoop_tasktracker,
hadoop_datanode, hadoop_client,
pig, et hive.
Pour les clusters HDFS1, vous ne
n
pouvez avoir qu'une seule instance
de hadoop_namenode et
hadoop_jobtracker.
Pour les clusters HDFS2, vous
n
pouvez avoir deux instances
hadoop_namenode.
Avec une distribution MapR, vous
n
pouvez configurer plusieurs
instances de hadoop_jobtracker.
instanceTypestringFacultatifTaille des machines virtuelles du groupe
de nœuds, exprimée sous le nom d'un
modèle de machine virtuelle prédéfini.
Reportez-vous à la section Tableau 8-4.
PETITE
n
MOYENNNE
n
GRANDE
n
EXTRA_LARGE
n
Si vous spécifiez les attributs cpuNum,
memCapacityMB ou sizeGB, ils
remplacent la valeur correspondante de
votre modèle de machine virtuelle
sélectionnée pour le groupe de nœuds
applicable.
cpuNumintegerFacultatifNombre de CPU par machine virtuelle. Si
la valeur de haFlag est FT, la valeur de
cpuNum doit être égale à 1.
memCapacityMBintegerFacultatifTaille de la RAM, en Mo, par machine
virtuelle.
REMARQUE Lors de l'utilisation de
MapR 3.1, vous devez spécifier un
minimum de 5 120 Mo de capacité
mémoire pour les nœuds zookeeper,
worker et client.
92 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
AttributTypeObligatoire/facultatifDescription
swapRatioflottantFacultatifDéfinit le rapport entre la taille du disque
latencySensitivitystringFacultatifVous pouvez spécifier une valeur
reservedMemRatiointegerFacultatifVous pouvez spécifier 0 ou 1 pour définir
reservedCpuRatiointegerFacultatifVous pouvez spécifier 0 ou 1 pour définir
StockageobjetFacultatifParamètres de stockage.
typestringFacultatifType de stockage :
sizeGBintegerFacultatifTaille du stockage des données. Doit être
diskNumintegerFacultatifSpécifie le nombre de disques à utiliser
dsNamesliste de chaînesFacultatifTableau de banques de données que le
dnNames4Dataliste de chaînesFacultatifTableau de banques de données que le
dsNames4Systemliste de chaînesFacultatifTableau de banques de données que le
rpNamesliste de chaînesFacultatifTableau de pools de ressources que le
de permutation du système
d'exploitation et la taille de la mémoire.
Par exemple, pour une mémoire de 4 Go
(4 096 Mo) et une valeur swapRatio de 1;
la taille du disque de permutation sera
de 4 Go. En spécifiant une valeur
swapRatio de 2, la taille du disque de
permutation sera de 8 Go.
Vous pouvez également spécifier une
valeur flottante pour l'attribut
swapRatio. En spécifiant une valeur de
0,5 avec une mémoire de 4 Go, la taille du
disque de permutation sera de 2 Go.
FAIBLE, NORMAL, MOYEN ou ÉLEVÉ
pour le paramètre de sensibilité de
latence de la machine virtuelle dans
vCenter Server afin d'optimiser les
performances du cluster.
Lorsque vous déployez un cluster HBase,
vous pouvez optimiser les performances
HBase en définissant le paramètre
latencySensitivity sur ÉLEVÉ. Vous
devez alors définir le paramètre
reservedMemRatio (voir ci-dessous)
sur 1.
la proportion de mémoire réservée.
Lorsque vous déployez un cluster HBase,
vous pouvez optimiser les performances
HBase en définissant le paramètre sur 1.
Vous devez alors définir le paramètre
latencySensitivity (voir ci-dessus)
sur ÉLEVÉ.
la proportion de CPU réservé.
LOCAL. Pour le stockage local
n
PARTAGÉ. Pour le stockage partagé.
n
un nombre entier positif
pour chaque groupe de nœuds.
groupe de nœuds peut utiliser.
groupe de nœuds de données peut
utiliser.
système peut utiliser.
groupe de nœuds peut utiliser.
VMware, Inc. 93
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
AttributTypeObligatoire/facultatifDescription
haFlagstringFacultatifPar défaut, les nœuds NameNode et
placementPoliciesobjetFacultatifJusqu'à trois contraintes facultatives :
Tailles des machines virtuelles prédéfinies Serengeti
Serengeti fournit des tailles de machines virtuelles prédéfinies à utiliser pour définir la taille de machines
virtuelles dans un groupe de nœuds de cluster.
JobTracker sont protégés par vSphere
HA.
activé. Protégez le nœud avec
n
vSphere HA.
pieds. Protégez le nœud avec
n
vSphere FT.
désactivée. N'utilisez pas vSphere
n
HA ou vSphere FT.
instancePerHost
n
groupRacks
n
groupAssociations
n
Tableau 8‑4. Tailles des machines virtuelles prédéfinies Serengeti
PETITEMOYENNNEGRANDEEXTRA_LARGE
Nombre de CPU par
machine virtuelle
RAM, en Go3,757,51530
Taille du disque de
données master
Hadoop, en Go
Taille du disque de
données worker
Hadoop, en Go
Taille du disque de
données client
Hadoop, en Go
Taille du disque de
données zookeeper, en
Go
1248
2550100200
50100200400
50100200400
204080120
Attributs Hadoop de la liste blanche et de la liste noire
Les attributs de la liste blanche sont les attributs Apache Hadoop que vous pouvez configurer
depuisSerengeti avec la commande cluster config. La majorité des attributs Apache Hadoop sont sur la
liste blanche. Cependant, il existe quelques attributs Apache Hadoop de la liste noire, que vous ne pouvez
pas configurer depuis Serengeti.
Si vous utilisez un attribut du fichier de spécification de cluster qui n'est ni un attribut sur liste blanche ni un
attribut sur liste noire, et que vous exécutez la commande cluster config, un avertissement s'affiche et
vous devez répondre oui pour continuer ou non pour annuler.
Si votre cluster inclut un NameNode or JobTracker, Serengeti configure les attributs fs.default.name et
dfs.http.address. Vous pouvez remplacer ces attributs en les définissant dans votre spécification de cluster.
94 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑5. Liste blanche des attributs de configuration
FichierAttributs
core-site.xmlTous les attributs de configuration core-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/core-default.html.
Excluez les attributs définis dans la liste noire.
hdfs-site.xmlTous les attributs de configuration hdfs-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/hdfs-default.html.
Excluez les attributs définis dans la liste noire.
mapred-site.xmlTous les attributs de configuration mapred-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/mapred-default.html.
Excluez les attributs définis dans la liste noire.
texte
Tous les attributs de configuration fair_scheduler listés sur la page Web de la documentation
Apache Hadoop 2.x qui peuvent être utilisés à l'intérieur du champ de texte. Par exemple,
http://hadoop.apache.org/docs/branch_name/fair_scheduler.html.
Excluez les attributs définis dans la liste noire.
Tous les attributs de configuration capacity_scheduler listés sur la page Web de la
documentation Apache Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/capacity_scheduler.html.
Excluez les attributs définis dans la liste noire.
Tous les attributs de configuration mapred-queue-acls listés sur la page Web Apache
Hadoop 2.x. Par exemple,
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON
Si vous avez défini un grand nombre d'attributs dans vos fichiers de configuration Hadoop, vous pouvez
convertir ces informations de configuration au format JSON que Serengeti peut utiliser.
Procédure
1Copiez le répertoire $HADOOP_HOME/conf/ de votre cluster Hadoop vers le serveur de gestion Serengeti.
2Ouvrez un shell de commande, tel que Bash ou PuTTY, connectez-vous au serveur de gestion Serengeti
et exécutez le script de conversion Ruby convert-hadoop-conf.rb.
convert-hadoop-conf.rb path_to_hadoop_conf
Les attributs de configuration Hadoop convertis, au format JSON, s'affichent.
3Ouvrez le fichier de spécification de cluster pour le modifier.
4Remplacez la configuration de niveau cluster ou les éléments de configuration de niveau groupe par la
sortie générée par le script de conversion Ruby convert-hadoop-conf.rb.
Suivant
Accédez à l'interface de ligne de commande Serengeti et utilisez le nouveau fichier de spécification.
Pour appliquer la nouvelle configuration à un cluster, exécutez la commande cluster config. Incluez le
n
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
Pour créer un cluster avec la nouvelle configuration, exécutez la commande cluster create. Incluez le
n
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
96 VMware, Inc.
Référence des commandes de
l'interface de ligne de commande
Serengeti9
Cette section fournit la description et la syntaxe requise de chaque commande de l'interface de ligne de
commande Serengeti.
Ce chapitre aborde les rubriques suivantes :
« Commandes appmanager », page 97
n
« Commandes cluster », page 99
n
« Commande connect », page 106
n
« Commandes datastore », page 107
n
« Commande disconnect », page 107
n
« Commande distro list », page 108
n
« Commandes mgmtvmcfg », page 108
n
« Commandes network », page 109
n
« Commandes resourcepool », page 110
n
« Commandes template », page 111
n
« Commandes topology », page 111
n
« Commandes usermgmt », page 112
n
Commandes appmanager
Les commandes appmanager {*} vous permettent d'ajouter des gestionnaires d'applications, de les
supprimer et de les gérer.
Commande appmanager add
La commande appmanager add vous permet d'ajouter un gestionnaire d'applications autre que celui par
défaut à votre environnement. Vous pouvez spécifier un gestionnaire d'applications Cloudera Manager ou
Ambari. La commande appmanager add lit le nom d'utilisateur et le mot de passe en mode interactif. Si vous
spécifiez https, la commande vous invite à saisir le chemin d'accès du certificat.
ParamètreObligatoire/facultatif Description
--name
application_manager_name
--description description
ObligatoireNom du gestionnaire d'applications
Facultatif
VMware, Inc. 97
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
ParamètreObligatoire/facultatif Description
--type
[ClouderaManager/Ambari]
--url <http[s]://server:port>
ObligatoireNom du type de gestionnaire d'applications à utiliser, Cloudera
Manager ou Ambari
ObligatoireURL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ;
invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un
mot de passe.
Commande appmanager delete
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Le gestionnaire d'applications à supprimer ne doit pas contenir de clusters, sans quoi le processus échoue.
appmanager delete --name application_manager_name
ParamètreObligatoire ou facultatif Description
--nameapplication_manager_name
ObligatoireNom du gestionnaire d'applications
Commande appmanager modify
Avec la commandeappmanager modify, vous pouvez modifier les informations d'un gestionnaire
d'applications : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas
d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur.
IMPORTANT Commettre une erreur lorsque vous modifiez un gestionnaire d'applications peut avoir de
graves conséquences. Par exemple, vous modifiez l'URL de Cloudera Manager en l'URL d'un nouveau
gestionnaire d'applications. Si vous créez des clusters Big Data Extensionsavec l'instance de l'ancien
Cloudera Manager, il devient impossible de gérer le cluster Cloudera Manager précédent. De plus, le cluster
Cloudera Manager n'est pas accessible à l'instance du nouveau gestionnaire d'applications.
appmanager modify --name application_manager_name
Obligatoire
Paramètre
--name
application_manager_name
--url http[s]://server:port
--changeAccountFacultatifModifie le compte de connexion et le mot de passe du gestionnaire
--changeCertificateFacultatifModifie le certificat SSL du gestionnaire d'applications. Ce paramètre ne
ou facultatifDescription
ObligatoireNom du gestionnaire d'applications
FacultatifURL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ; invite à la
saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Vous
pouvez utiliser http ou https.
d'applications.
s'applique qu'aux gestionnaires d'applications dont l'URL commence par
https.
98 VMware, Inc.
Commande appmanager list
La commande appmanager list retourne une liste de tous les gestionnaires d'applications disponibles, y
compris le gestionnaire d'applications par défaut.
ParamètreObligatoire/facultatif Description
--name application_manager_name
--distro distribution_name
--configurations | --roles
Commandes cluster
Les commandes cluster {*} vous permettent de vous connecter aux clusters, de créer et de supprimer des
clusters, d'arrêter et de démarrer des clusters, et d'exécuter des opérations de gestion des clusters.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
FacultatifNom du gestionnaire d'applications.
FacultatifNom d'une distribution spécifique. Si vous n'incluez pas la
variable distribution_name, la commande retourne toutes les
distributions Hadoop prises en charge par le gestionnaire
d'applications.
FacultatifRôles ou configurations Hadoop d'un gestionnaire
d'applications et d'une distribution spécifiques. N'utilisez
pas de rôles non pris en charge pour créer un cluster.
Commande cluster config
La commande cluster config vous permet de modifier la configuration d'un cluster Hadoop ou HBase
existant, que le cluster soit configuré selon les valeurs Serengeti par défaut ou que vous ayez personnalisé le
cluster.
REMARQUE La commande cluster config ne peut être utilisée qu'avec les clusters créés à l'aide du
gestionnaire d'applications par défaut. Pour ces clusters créés avec Ambari ou Cloudera Manager, toute
modification de la configuration d'un cluster doit s'effectuer à partir du gestionnaire d'applications. De
même, les nouveaux services et les nouvelles configurations modifiés dans le gestionnaire d'applications
externe ne peuvent pas être synchronisés à partir de Big Data Extensions.
Vous pouvez utiliser la commande cluster config avec la commande cluster export pour rétablir en
mode normal les services de cluster et la configuration Hadoop originale dans les cas suivants :
Un service tel que NameNode, JobTracker, DataNode ou TaskTracker s'arrête.
n
Vous avez modifié manuellement la configuration Hadoop d'un ou de plusieurs nœuds d'un cluster.
n
Exécutez la commande cluster export, puis la commande cluster config. Incluez le nouveau fichier de
spécification de cluster que vous venez d'exporter.
Si le cluster HDFS externe a été créé par Big Data Extensions, l'utilisateur doit se servir de la commande
clusterconfig pour ajouter la topologie du cluster HBase au cluster HDFS.
L'exemple suivant décrit le fichier de spécification à ajouter à la topologie :
FacultatifNom de fichier de la spécification du cluster Hadoop
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
ParamètreObligatoire/facultatif Description
--yes
--skipConfigValidation
FacultatifRépondez O à la confirmation O/N. En cas de non-
FacultatifIgnorez la validation de la configuration du cluster.
Commande cluster create
Vous utilisez la commande cluster create pour créer un cluster Hadoop ou HBase.
Si la spécification du cluster n'inclut pas les nœuds requis, par exemple un nœud master, le
Serengeti Management Server crée le cluster conformément à la configuration de cluster par défaut que
déploie le Serengeti Management Server.
Obligatoire ou
Paramètre
--name cluster_name_in_Serengeti
--networkName management_network_name
--adminGroupName admin_group_name
--userGroupNameuser_group_name
--appmanagerappmanager_name
--type cluster_type
--password
--specFile spec_file_path
--distro Hadoop_distro_name
--dsNames datastore_names
facultatifDescription
Obligatoire.Nom de cluster.
Obligatoire.Réseau à utiliser pour la gestion du trafic dans les
FacultatifGroupe administratif à utiliser pour ce cluster comme
FacultatifGroupe d'utilisateurs à utiliser pour ce cluster comme
Facultatif.Nom d'un gestionnaire d'applications autre que le
Facultatif.Type de cluster :
Facultatif.
Ne pas utiliser
si vous utilisez
le paramètre -resume.
Facultatif.Nom de fichier de la spécification du cluster. Pour les
Facultatif.Distribution Hadoop pour le cluster.
Facultatif.Banque de données à utiliser pour déployer le cluster
spécification, entrez manuellement o ou n.
clusters Hadoop.
Si vous omettez l'un des paramètres réseau facultatifs,
le trafic associé à ce paramètre est acheminé sur le
réseau de gestion spécifié à l'aide du paramètre-networkName.
défini dans Active Directory ou LDAP.
défini dans Active Directory ou LDAP.
gestionnaire par défaut pour gérer vos clusters.
Hadoop (par défaut)
n
HBase
n
Mot de passe personnalisé pour tous les nœuds du
cluster.
Les mots de passe doivent contenir 8 à 20 caractères,
utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une
lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caractères spéciaux
suivants : _, @, #, $, %, ^, &, *
clusters de calcul uniquement, vous devez réviser le
fichier de spécification pour qu'il pointe sur un HDFS
externe.
Hadoop dans Serengeti. Plusieurs banques de
données peuvent être utilisées, séparées par une
virgule.
Par défaut, toutes les banques de données disponibles
sont utilisées.
Lorsque vous spécifiez le paramètre --dsNames, le
cluster peut uniquement utiliser les banques de
données que vous fournissez dans cette commande.
100 VMware, Inc.
Loading...
+ hidden pages
You need points to download manuals.
1 point = 1 manual.
You can buy points or you can get point for every manual you upload.