VMWARE vSphere Big Data Extensions - 2.3 User’s Manual [fr]

Guide de l'interface de ligne de
commande VMware vSphere Big Data
Extensions
vSphere Big Data Extensions 2.3
Ce document prend en charge la version de chacun des produits répertoriés, ainsi que toutes les versions publiées par la suite jusqu'au remplacement dudit document par une nouvelle édition. Pour rechercher des éditions plus récentes de ce document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-001702-00
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus récente sur le site Web de VMware à l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose également les dernières mises à jour des produits.
N’hésitez pas à nous transmettre tous vos commentaires concernant cette documentation à l’adresse suivante :
docfeedback@vmware.com
Copyright © 2013 – 2015 VMware, Inc. Tous droits réservés. Copyright et informations sur les marques. Ce guide est sous licence Creative Commons Attribution-NoDerivs 3.0 United States License
(http://creativecommons.org/licenses/by-nd/3.0/us/legalcode).
VMware, Inc.
3401 Hillview Ave. Palo Alto, CA 94304 www.vmware.com
2 VMware, Inc.
VMware, Inc.
100-101 Quartier Boieldieu 92042 Paris La Défense France www.vmware.com/fr

Table des matières

À propos de ce guide 7
Utilisation du client d'interface de ligne de commande distant Serengeti 9
1
Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant 9
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 11
Gestion des gestionnaires d'applications 13
2
À propos des gestionnaires d'applications 13 Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 14 Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 15 Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 15 Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 15 Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 16 Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 16
Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne
3
de commande Serengeti 19
À propos des gestionnaires d'applications 19 Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 23 Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 23 Ajouter une banque de données avec l'interface de ligne de commande Serengeti 24 Supprimer une banque de données avec l'interface de ligne de commande Serengeti 24 Ajouter un réseau avec l'interface de ligne de commande Serengeti 24 Supprimer un réseau avec l'interface de ligne de commande Serengeti 25 Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti 25 Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti 26 Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. 27
VMware, Inc.
Gérer les utilisateurs et les comptes d'utilisateurs 29
4
Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti 29 Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti 31 Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de
commande Serengeti 31 Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti 32 Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti 33
3
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Création de clusters Hadoop et HBase 35
5
À propos des types de déploiement de clusters Hadoop et HBase 37 Configurations des clusters Hadoop par défaut pour Serengeti 37 Configurations des clusters HBase par défaut pour Serengeti 38 À propos de la topologie des clusters 38 À propos des clusters HBase 41 À propos des clusters MapReduce 49 À propos des clusters de calcul de données 52 À propos des clusters personnalisés 64
Gestion des clusters Hadoop et HBase 73
6
Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti 74 Agrandir un cluster avec l'interface de ligne de commande Serengeti 74 Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti 75 Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 75 Supprimer un cluster avec l'interface de ligne de commande Serengeti 78 À propos de vSphere High Availability et de vSphere Fault Tolerance 78 Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti 78 Développer un cluster à l'aide de l'interface de ligne de commande 78 Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti 80 Effectuer la récupération d'une machine virtuelle de nœud de cluster 80 Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti 81
Surveillance de l'environnement Big Data Extensions 83
7
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 83 Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti 84 Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 84 Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 84 Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti 85 Afficher les banques de données avec l'interface de ligne de commande Serengeti 85 Afficher les réseaux avec l'interface de ligne de commande Serengeti 86 Afficher les pools de ressources avec l'interface de ligne de commande Serengeti 86
Référence de spécification de cluster 87
8
Conditions requises de fichier de spécification de cluster 87 Conditions requises de la définition de cluster 88 Fichier de spécification de cluster annoté 88 Définitions des attributs de spécification de cluster 91 Attributs Hadoop de la liste blanche et de la liste noire 94 Convertir les fichiers XML Hadoop en Serengeti fichiers JSON 96
Référence des commandes de l'interface de ligne de commande Serengeti 97
9
Commandes appmanager 97
4 VMware, Inc.
Commandes cluster 99 Commande connect 106 Commandes datastore 107 Commande disconnect 107 Commande distro list 108 Commandes mgmtvmcfg 108 Commandes network 109 Commandes resourcepool 110 Commandes template 111 Commandes topology 111 Commandes usermgmt 112
Index 115
Table des matières
VMware, Inc. 5
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
6 VMware, Inc.

À propos de ce guide

Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit comment utiliser l'interface de ligne de commande Serengeti pour gérer les ressources vSphere utilisées pour créer les clusters Hadoop et HBase. Il explique aussi comment créer, gérer et surveiller les clusters Hadoop et HBase à partir de l'interface de ligne de commande VMware Serengeti™.
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit aussi comment exécuter les opérations Hadoop et HBase avec l'Serengeti CLI, et fournit la spécification de cluster et les références des commandes de l'Serengeti CLI.
Public ciblé
Le guide est destiné aux administrateurs système et aux développeurs qui veulent utiliser Serengeti pour déployer et gérer des clusters Hadoop. Pour bien utiliser Serengeti, vous devez connaître Hadoop et VMware® vSphere®.
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent éventuellement ne pas vous être familiers. Pour consulter la définition des termes utilisés dans la documentation technique VMware, visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
8 VMware, Inc.
Utilisation du client d'interface de
ligne de commande distant Serengeti 1
Le client d'interface de ligne de commande distant Serengeti vous permet d'accéder à Serengeti Management Server pour déployer, gérer et utiliser Hadoop.
Ce chapitre aborde les rubriques suivantes :
« Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
n
commande distant », page 9
« Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti »,
n
page 11

Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de commande distant

Vous pouvez accéder à l'interface de ligne de commande (CLI) Serengeti pour effectuer des tâches administratives Serengeti à l'aide du client d'interface de ligne de commande distant Serengeti.
Prérequis
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server® sur
n
lequel vous avez déployé le vApp Serengeti.
Vérifiez que le déploiement de Serengeti vApp s'est correctement déroulé et que le serveur de gestion
n
est en cours d'exécution.
Vérifiez que le mot de passe dont vous disposez pour vous connecter à la Serengeti CLI est exact.
n
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre
n
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Procédure
1 Téléchargez le package Serengeti CLI à partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'à l'URL suivante :
https://server_ip_address/cli/VMware-Serengeti-CLI.zip
2 Téléchargez le fichier ZIP.
Le nom de fichier est au format VMware-Serengeti-cli-numéro_version-numéro_build.ZIP.
VMware, Inc.
9
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3 Décompressez le fichier téléchargé.
Celui-ci inclut les composants suivants.
Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client.
n
Répertoire samples, qui inclut des exemples de configurations de clusters.
n
Bibliothèques dans le répertoire lib.
n
4 Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le
package.
5 Accédez au répertoire cli, puis exécutez la commande suivante pour entrer dans l'interface de ligne de
commande Serengeti.
Pour les langues autres que le français ou l'allemand, exécutez la commande suivante.
n
java -jar serengeti-cli-numéro_version.jar
Pour le français ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850)
n
exécuter l'interface de ligne de commande Serengeti à partir d'une console de commandes Windows, exécutez la commande suivante.
java -Dfile.encoding=cp850 -jar serengeti-cli-numéro_version.jar
6 Connectez-vous au service Serengeti.
Vous devez exécuter la commande connect host chaque fois que vous commencez une session d'interface de ligne de commande, puis une nouvelle fois à l'issue du délai d'expiration de session de 30 minutes. Si vous n'exécutez pas cette commande, vous ne pouvez pas en exécuter d'autres.
a Exécutez la commande connect.
connect --host xx.xx.xx.xx:8443
b À l'invite, tapez votre nom d'utilisateur, qui peut être différent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne créez pas de nom d'utilisateur et de mot de passe pour le Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification d'administrateur vCenter Server par défaut. Le Serengeti Command-Line Interface Client utilise les informations d'identification de vCenter Server avec les autorisations de lecture sur le Serengeti Management Server.
c À l'invite, tapez votre mot de passe.
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI apparaît. Vous pouvez utiliser la commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particulière, ajoutez son nom après la commande help.
n
help cluster create
Appuyez sur Tab exécuter une commande.
n
10 VMware, Inc.
Chapitre 1 Utilisation du client d'interface de ligne de commande distant Serengeti

Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti

Pour résoudre les problèmes ou exécuter vos scripts d'automatisation de la gestion, connectez-vous aux nœuds Hadoop master, worker et client via SSH à partir du Serengeti Management Server à l'aide des outils des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion authentifiée par un nom d'utilisateur et un mot de passe. Tous les nœuds déployés sont protégés par un mot de passe soit aléatoire, soit défini par l'utilisateur, qui a été attribué lors de la création du cluster.
Prérequis
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1 Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à l'invite de commande.
2 Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root apparaît sur la console de la machine virtuelle dans vSphere Web Client.
3 Modifiez le mot de passe du nœud Hadoop en exécutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
VMware, Inc. 11
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
12 VMware, Inc.
Gestion des gestionnaires
d'applications 2
Pour bien gérer vos clusters Hadoop, il est essentiel de comprendre comment gérer les différents gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
« À propos des gestionnaires d'applications », page 13
n
« Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 14
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
n
Serengeti », page 15
« Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 15
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
n
l'interface de ligne de commande Serengeti », page 15
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
n
de l'interface de ligne de commande Serengeti », page 16
« Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
n
page 16

À propos des gestionnaires d'applications

Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
n
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
n
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux outils.
VMware, Inc.
13
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
n
au lieu de l'URL.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
n
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
n
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps que les anciens.
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
n
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions. Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les nouvelles configurations.

Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du gestionnaire d'applications.
3 Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4 Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
14 VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications

Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions.

Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur cette commande, consultez « Commande appmanager modify », page 98.

Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
VMware, Inc. 15
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez.

Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster.
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique.

Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
n
environnement Big Data Extensions.
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
n
Sinon, le processus de suppression échouera.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
16 VMware, Inc.
2 Exécutez la commande appmanager delete.
appmanager delete --name application_manager_name
Chapitre 2 Gestion des gestionnaires d'applications
VMware, Inc. 17
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
18 VMware, Inc.
Gestion de l'environnement Big Data Extensions à l'aide de l'interface de
ligne de commande Serengeti 3
Vous devez gérer votre Big Data Extensions, ce qui inclut de s'assurer que si vous n'avez pas choisi d'ajouter le pool de ressources, la banque de données et le réseau lorsque vous déployez le vApp Serengeti, vous ajoutez les ressources vSphere avant de créer un cluster Hadoop ou HBase. Vous devez aussi ajouter des gestionnaires d'applications supplémentaires, si vous voulez utiliser Ambari ou Cloudera Manager pour gérer vos clusters Hadoop. Vous pouvez supprimer les ressources dont vous n'avez plus besoin.
Ce chapitre aborde les rubriques suivantes :
« À propos des gestionnaires d'applications », page 19
n
« Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Ajouter une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Ajouter un réseau avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer un réseau avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti », page 26
n
« Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. »,
n
page 27

À propos des gestionnaires d'applications

Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
n
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
n
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux outils.
VMware, Inc.
19
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
n
au lieu de l'URL.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
n
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
n
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps que les anciens.
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
n
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions. Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les nouvelles configurations.

Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du gestionnaire d'applications.
3 Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4 Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
20 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti

Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur cette commande, consultez « Commande appmanager modify », page 98.

Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez.

Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster.
VMware, Inc. 21
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique.

Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions.

Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
n
environnement Big Data Extensions.
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
n
Sinon, le processus de suppression échouera.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager delete.
appmanager delete --name application_manager_name
22 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti

Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti

Vous pouvez ajouter des pools de ressources pour qu'ils puissent être utilisés par les clusters Hadoop. Les pools de ressources doivent être situés au niveau supérieur du cluster. Les pools de ressources imbriqués ne sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources à Big Data Extensions, il représente symboliquement le pool de ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'accès complet du pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui utilisent ce pool de ressources.
Procédure
1 Accédez au client d'interface de ligne de commande Serengeti.
2 Exécutez la commande resourcepool add.
Le paramètre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nommé myRP au pool de ressources vSphere rp1 contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP --vccluster cluster1 --vcrp rp1

Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti

Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilisés par un cluster Hadoop. Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les clusters Hadoop que vous créez dans le serveur de gestion Serengeti soient déployés sous un autre pool de ressources. La suppression d'un pool de ressources supprime sa référence dans vSphere. Le pool de ressources n'est pas réellement supprimé.
Procédure
1 Accédez au client d'interface de ligne de commande Serengeti.
2 Exécutez la commande resourcepool delete.
Si la commande échoue parce que le pool de ressources est référencé par un cluster Hadoop, vous pouvez utiliser la commande resourcepool list pour voir quel cluster référence ce pool de ressources.
Cet exemple supprime le pool de ressources nommé myRP.
resourcepool delete --name myRP
VMware, Inc. 23
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Ajouter une banque de données avec l'interface de ligne de commande Serengeti

Vous pouvez ajouter des banques de données locales ou partagées au serveur Serengeti pour que les clusters Hadoop puissent y accéder.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui utilisent ce pool de ressources.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande datastore add.
L'exemple ajoute une nouvelle banque de données de stockage local, nommée myLocalDS. La valeur du paramètre --spec, local*, est un caractère générique spécifiant un ensemble de banques de données vSphere. Toutes les banques de données vSphere dont le nom commence par « local » sont ajoutées et gérées comme un tout par Serengeti.
datastore add --name myLocalDS --spec local* --type LOCAL
Suivant
Après avoir ajouté une banque de données à Big Data Extensions, ne la renommez pas dans vSphere. Si vous la renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.

Supprimer une banque de données avec l'interface de ligne de commande Serengeti

Vous pouvez supprimer une banque de données de Serengeti qui n'est référencée par aucun cluster Hadoop. La suppression d'une banque de données supprime uniquement la référence à la banque de données vCenter Server. La banque de données elle-même n'est pas supprimée.
Vous supprimez les banques de données si vous n'en avez plus besoin ou si vous voulez déployer les clusters Hadoop que vous créez sur le serveur de gestion Serengeti sous une autre banque de données.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande datastore delete.
Si la commande échoue parce que la banque de données est référencée par un cluster Hadoop, vous pouvez utiliser la commande datastore list pour savoir quel cluster fait référence à la banque de données.
Cet exemple supprime la banque de données myDS.
datastore delete --name myDS

Ajouter un réseau avec l'interface de ligne de commande Serengeti

Ajouter des réseaux à Big Data Extensions permet aux clusters Hadoop d'accéder à leurs adresses IP. Un réseau est à la fois un groupe de ports et un moyen d'accéder à ce groupe via une adresse IP.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
24 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande network add.
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les machines virtuelles utilisant ce réseau recourent au protocole DHCP pour obtenir les adresses IP.
network add --name myNetwork --portGroup 10PG --dhcp
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les nœuds Hadoop utilisent les adresses de la plage d'adresses IP 192.168.1.2-100 ; l'adresse IP du serveur DNS est
10.111.90.2, l'adresse de la passerelle est 192.168.1.1 et le masque de sous-réseau est 255.255.255.0.
network add --name myNetwork --portGroup 10PG --ip 192.168.1.2-100 --dns 10.111.90.2
--gateway 192.168.1.1 --mask 255.255.255.0
Pour spécifier plusieurs segments d'adresse IP, utilisez différentes chaînes afin d'exprimer la plage d'adresses IP au format xx.xx.xx.xx-xx[,xx]*.
xx.xx.xx.xx-xx, xx.xx.xx.xx-xx, single_ip, single_ip
Cet exemple ajoute un réseau dynamique avec des adresses IP attribuées par DHCP et un nom d'hôte significatif.
network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC

Supprimer un réseau avec l'interface de ligne de commande Serengeti

Vous pouvez supprimer un réseau de Serengeti qui n'est référencé par aucun cluster Hadoop. La suppression d'un réseau non utilisé libère les adresses IP en vue d'une réutilisation.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande network delete.
network delete --name network_name
Si la commande échoue parce que le réseau est référencé par un cluster Hadoop, vous pouvez utiliser la commande network list --detail pour savoir quel cluster fait référence au réseau.

Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti

Vous pouvez reconfigurer un réseau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacité pour le cluster que vous voulez créer.
Si la plage d'adresses IP que vous spécifiez inclut les adresses IP qui sont déjà dans le réseau, Serengeti ignore les adresses dupliquées. Les adresses restantes de la plage spécifiée sont ajoutées au réseau. Si le réseau est déjà utilisé par un cluster, celui-ci peut utiliser les nouvelles adresses IP après que vous les avez ajoutées au réseau. Si seule une partie de la plage d'adresses IP est utilisée par un cluster, les adresses IP non employées peuvent être utilisées lorsque vous créez un nouveau cluster.
VMware, Inc. 25
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande network modify.
Cet exemple ajoute les adresses IP comprises entre 192.168.1.2 et 192.168.1.100 à un réseau nommé myNetwork.
network modify --name myNetwork --addIP 192.168.1.2-100

Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez reconfigurer le type de système de noms de domaine (DNS) d'un réseau, et spécifier que Big Data Extensions génère des noms d'hôte significatifs pour les nœuds d'un cluster Hadoop.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
Vous pouvez spécifier trois options DNS :
Normale
Dynamique
Autres
Les noms d'hôte vous permettent d'identifier les éléments plus facilement et d'utiliser des services tels que l'authentification unique, ce qui nécessite l'utilisation d'un DNS correctement configuré.
Procédure
1 Accédez à l'Serengeti CLI.
Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS inverse correspond au mappage de l'adresse IP au nom de domaine. Il s'agit du contraire du DNS normal qui mappe les noms de domaine aux adresses IP. Par défaut, le type de DNS est normal.
Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à jour automatique d'un nom de serveur du système DNS (Domain Name System) avec la configuration DNS active de ses noms d'hôte configurés, adresses ou autres informations. Big Data Extensions s'intègre à un serveur Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite automatiquement auprès du serveur DNS.
Il n'y a pas de serveur DNS ou le serveur DNS n'offre pas de résolution DNS normale ou de services Dynamic DNS. Dans ce cas, vous devez ajouter un mappage FQDN/IP pour tous les nœuds du fichier /etc/hosts de chaque nœud du cluster. Grâce à ce mappage de noms d'hôte vers des adresses IP, chaque nœud peut contacter un autre nœud du cluster.
2 Exécutez la commande network modify.
Vous pouvez spécifier trois types de DNS : NORMAL, DYNAMIC et OTHERS. La valeur par défaut est NORMAL.
Dans cet exemple, un réseau nommé myNetwork est modifié de sorte qu'il utilise un type Dynamic DNS. Les machines virtuelles utilisant ce réseau recourront au protocole DHCP pour obtenir les adresses IP.
network modify --name myNetwork --dnsType DYNAMIC
26 VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti

Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles.

Vous pouvez rapidement cloner et déployer des machines virtuelles à l'aide de Instant Clone, une fonctionnalité de vSphere 6.0.
À l'aide de Instant Clone, une machine virtuelle parent est dupliquée, puis une machine virtuelle enfant (ou un clone instantané) est créée. La machine virtuelle enfant tire profit du stockage et de la mémoire de la machine virtuelle parent, ce qui permet de réduire l'utilisation des ressources.
Lorsque vous provisionnez un cluster, Big Data Extensions crée une machine virtuelle parent pour chaque hôte sur lequel un nœud de cluster a été placé. Après le provisionnement, un nouveau pool de ressources étiqueté BDE-ParentVMs-$serengeti.uuid-$template.name apparaît dans vCenter Server. Ce pool de ressources contient plusieurs machines virtuelles parent. Les nœuds de cluster normaux sont clonés instantanément à partir de ces machines virtuelles parent. Une fois qu'elles sont créées sur les hôtes du cluster, le temps nécessaire au provisionnement et à la mise à l'échelle d'un cluster est considérablement réduit.
Lorsque vous mettez un clone à l'échelle, le type de clone que vous avez spécifié lors de la création du cluster continue d'être utilisé, quel que soit le type actuel du clone. Par exemple, si vous avez créé un cluster à l'aide de la fonction Instant Clone, puis que vous passez au type Fast Clone dans Big Data Extensions, le cluster que vous avez provisionné à l'aide d'Instant Clone continuera d'utiliser Instant Clone pour agrandir le cluster.
Si vous créez des clusters et que vous souhaitez ultérieurement apporter des changements à la machine virtuelle de modèle utilisée pour provisionner ces clusters, vous devez d'abord supprimer toutes les machines virtuelles parent existantes avant d'utiliser la nouvelle machine virtuelle de modèle. Lorsque vous créez des clusters à l'aide du nouveau modèle, Big Data Extensions crée de nouvelles machines virtuelles parent basées sur le nouveau modèle.
Prérequis
Votre déploiement Big Data Extensions doit utiliser vSphere 6.0 pour bénéficier d'Instant Clone.
Procédure
1 Connectez-vous à Serengeti Management Server.
2 Modifiez le fichier /opt/serengeti/conf/serengeti.properties et changez la valeur de
cluster.clone.service=fast.
Le type de clone par défaut lorsque vous exécutez vSphere 6.0 est Instant Clone.
cluster.clone.service = instant
3 Pour activer le type Instant Clone, redémarrez Serengeti Management Server.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier serengeti.properties révisé et applique la fonction Fast Clone à tous les nouveaux clusters que vous créez.
Suivant
Tous les clusters que vous créez ensuite utiliseront Instant Clone pour déployer les machines virtuelles. Reportez-vous à Chapitre 5, « Création de clusters Hadoop et HBase », page 35.
VMware, Inc. 27
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
28 VMware, Inc.
Gérer les utilisateurs et les comptes
d'utilisateurs 4
Par défaut, l'authentification est configurée uniquement pour les comptes d'utilisateurs locaux dans Big Data Extensions. Si vous voulez utiliser LDAP (soit Active Directory soit un répertoire compatible OpenLDAP) pour authentifier les utilisateurs, vous devez configurer Big Data Extensions pour utiliser votre service LDAP ou Active Directory.
Ce chapitre aborde les rubriques suivantes :
« Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
n
Serengeti », page 29
« Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti »,
n
page 31
« Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande
n
Serengeti », page 31
« Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
n
Serengeti », page 32
« Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti », page 33
n

Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti

Créez un fichier de configuration qui identifie votre environnement de serveur LDAP ou Active Directory.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Accédez au répertoire de Serengeti Management Server dans lequel vous souhaitez créer et stocker le
fichier de configuration.
Vous pouvez utiliser le répertoire /opt/serengeti/etc pour stocker votre fichier de configuration.
VMware, Inc.
29
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3 À l'aide d'un éditeur de texte, créez un fichier JavaScript Object Notation (JSON) contenant les
paramètres de configuration de votre service LDAP ou Active Directory.
Le format du fichier de configuration est représenté ci-dessous.
{ "type": "user_mode_type", "primaryUrl": "ldap://AD_LDAP_server_IP_address:network_port", "baseUserDn": "DN_information", "baseGroupDn": "DN_information", "userName": "username", "password": "password", "mgmtVMUserGroupDn":"DN_information" }
Tableau 41. Informations de connexion LDAP
type Le service d'authentification utilisateur externe à utiliser (soit AD_AS_LDAP, soit LDAP).
baseUserDn
baseGroupDn
primaryUrl
mgmtVMUserGroupDn
userName
password
Indiquez le DN utilisateur de base.
Indiquez le DN groupe de base.
Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP.
(Facultatif) Spécifiez le DN de base pour rechercher les groupes afin d'accéder au Serengeti Management Server.
Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP.
Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP.
4 Lorsque le fichier est terminé, enregistrez votre travail.
Exemple : Exemple de fichier de configuration LDAP
L'exemple suivant illustre le fichier de configuration d'un serveur LDAP dans le domaine acme.com.
{ "type": "LDAP", "primaryUrl": "ldap://acme.com:8888", "baseUserDn": "ou=users,dc=dev,dc=acme,dc=com", "baseGroupDn": "ou=users,dc=dev,dc=acme,dc=com", "userName": "jsmith", "password": "MyPassword", "mgmtVMUserGroupDn":"cn=Administrators,cn=Builtin,dc=dev,dc=acme,dc=com" }
Suivant
Une fois que vous avez créé un fichier de configuration LDAP, vous pouvez activer la gestion centralisée des utilisateurs pour votre environnement Big Data Extensions. Reportez-vous à « Activer la gestion
centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31.
30 VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs

Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti

Vous devez configurer Big Data Extensions de sorte qu'il utilise une source d'identité utilisateur externe avant de pouvoir gérer les utilisateurs via votre service LDAP ou Active Directory.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Créez un fichier de configuration identifiant votre environnement LDAP ou Active Directory à utiliser
n
avec Big Data Extensions. Reportez-vous à « Créer un fichier de configuration du service LDAP avec
l'interface de ligne de commande Serengeti », page 29
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande usermgmtserver add --cfgfile config_file_path
Cet exemple active la gestion centralisée des utilisateurs, en indiquant que les paramètres de configuration LDAP se trouvent dans le fichier /opt/serengeti/LDAPConfigFile.cfg.
usermgmtserver add --cfgfile /opt/serengeti/LDAPConfigFile.cfg
3 Exécutez la commande mgmtvmcfg get pour vérifier la configuration correcte de votre environnement en
affichant les informations de configuration du service LDAP ou Active Directory.
Le contenu du fichier de la configuration active utilisé par votre environnement Big Data Extensions s'affiche sur le terminal.
Suivant
Lorsque vous activez la gestion centralisée des utilisateurs, vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un cluster avec l'authentification utilisateur LDAP à
l'aide de l'interface de ligne de commande Serengeti », page 31.

Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti

Lorsque la gestion centralisée des utilisateurs est configurée et activée, vous pouvez accorder des privilèges aux utilisateurs et aux groupes d'utilisateurs dans votre service LDAP ou Active Directory pour chaque cluster Hadoop que vous créez.
Pour illustrer l'utilisation de la gestion centralisée des utilisateurs dans votre environnement Big Data Extensions, vous pouvez attribuer aux groupes dotés de privilèges administratifs dans votre service LDAP ou Active Directory un accès au Serengeti Management Server. Cela permet aux utilisateurs d'administrer Big Data Extensions et le Serengeti Management Server. Vous pouvez ensuite octroyer à un autre groupe d'utilisateurs un accès à des nœuds de cluster Hadoop pour leur permettre d'exécuter des tâches Hadoop.
VMware, Inc. 31
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour accéder aux commandes de l'Serengeti CLI et de Serengeti, les utilisateurs doivent prendre l'identité d'utilisateur serengeti après leur connexion. Par exemple, vous pouvez utiliser la commande su pour prendre l'identité d'utilisateur serengeti. Vous pourrez ensuite accéder à l'Serengeti CLI.
su serengeti
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportez-
n
vous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez le cluster create command et spécifiez la valeur des paramètres --adminGroupName et --
userGroupName à l'aide des noms des groupes d'administrateurs et des groupes d'utilisateurs auxquels
vous souhaitez accorder des privilèges relatifs au cluster que vous créez.
cluster create --name cluster_name --type hbase --adminGroupName AdminGroupName -­userGroupName UserGroupName
Suivant
Après avoir déployé le cluster Hadoop, vous pouvez y accéder à l'aide de plusieurs méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.

Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez modifier le mode de gestion des utilisateurs de votre environnement Big Data Extensions. Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux gérés par LDAP ou Active Directory, ou une combinaison de ces méthodes d'authentification.
Tableau 42. Modes d'authentification utilisateur
Mode utilisateur Description
Local
Utilisateur LDAP
Mode mixte
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre environnement Big Data Extensions. Il s'agit de la solution de gestion des utilisateurs par défaut.
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de votre entreprise telle qu'Active Directory ou LDAP. Si vous choisissez le mode utilisateur LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory en tant que LDAP).
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une source d'identité externe. Si vous choisissez le mode mixte, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory en tant que LDAP).
32 VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande mgmtvmcfg modify pour spécifier le mode d'authentification utilisateur que vous
souhaitez utiliser.
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
n
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify LOCAL
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une
n
source d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify MIXED
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de
n
votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify LDAP
Big Data Extensions utilise le mode d'authentification utilisateur que vous avez spécifié.

Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez modifier vos paramètres LDAP et rendre ces modifications disponibles dans votre environnement Big Data Extensions.
Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportez-
n
vous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
Modifiez le fichier de configuration LDAP pour refléter tous les changements que vous souhaitez
n
apporter à vos paramètres de gestion des utilisateurs. Reportez-vous à « Créer un fichier de
configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29
VMware, Inc. 33
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande usermgmtserver modify --cfgfile config_file_path
usermgmtserver modify --cfgfile config_file_path
Tous les changements que vous avez apportés au fichier de configuration LDAP sont appliqués à votre environnement Big Data Extensions. Les clusters que vous créez utiliseront les nouveaux paramètres LDAP.
Suivant
Vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un
cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti »,
page 31.
34 VMware, Inc.
Création de clusters Hadoop et
HBase 5
Dans Big Data Extensions, vous pouvez créer et déployer des clusters Hadoop et HBase. Un cluster Big Data est un type de cluster de calcul conçu pour stocker et analyser de grandes quantités de données non structurées dans un environnement informatique distribué.
Restrictions.
Lorsque vous créez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
n
défaut, car les autres ne prennent pas en charge ce type de cluster.
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
n
Ambari.
La mise hors tension temporaire des hôtes provoque l'échec des clusters Big Data pendant la création
n
du cluster.
Lorsque vous créez des clusters Big Data, Big Data Extensions calcule le placement des machines virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des stratégies de placement définies par l'utilisateur avant la création des machines virtuelles. Lors de ces calculs, si certains hôtes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power Management (VMware DPM), ces hôtes ne sont pas considérés comme des ressources disponibles par Big Data Extensions.
Si un hôte est mis hors tension ou en veille après que Big Data Extensions a calculé le placement des machines virtuelles, mais avant leur création, la création du cluster échoue tant que vous ne remettez pas ces hôtes sous tension. Les solutions de contournement suivantes peuvent vous aider à éviter ce problème et à y remédier.
n
n
n
Conditions
Les besoins en ressources sont différents pour les clusters créés avec l'interface de ligne de commande de Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des modèles par défaut différents. Les clusters par défaut créés à l'aide de la Serengeti CLI sont ciblés sur les utilisateurs de Project Serengeti et les applications de validation technique. Ils sont plus petits que les modèles de plug­in de Big Data Extensions, qui sont ciblés sur des déploiements de plus grande envergure à usage commercial.
VMware, Inc.
Désactivez VMware DPM sur les clusters vSphere où vous déployez et exécutez Big Data Extensions.
Mettez les hôtes en mode maintenance avant de les mettre hors tension.
Si la création d'un cluster Big Data échoue en raison de l'indisponibilité temporaire des hôtes qui lui sont attribués, reprenez la création du cluster après avoir mis les hôtes sous tension.
35
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Certaines configurations de déploiement nécessitent plus de ressources que d'autres. Par exemple, si vous créez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous créez un cluster MapR ou Greenplum HD par défaut à l'aide de la Serengeti CLI, il est recommandé de disposer d'au moins 550 Go de stockage et de 55 Go de mémoire. Pour les autres distributions Hadoop, il est recommandé de disposer d'au moins 350 Go de stockage et de 35 Go de mémoire.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles sur le cluster. Cela empêche la migration automatique des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data Extensions telles que la récupération de défaillances de disque.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Ce chapitre aborde les rubriques suivantes :
« À propos des types de déploiement de clusters Hadoop et HBase », page 37
n
« Configurations des clusters Hadoop par défaut pour Serengeti », page 37
n
« Configurations des clusters HBase par défaut pour Serengeti », page 38
n
« À propos de la topologie des clusters », page 38
n
« À propos des clusters HBase », page 41
n
« À propos des clusters MapReduce », page 49
n
« À propos des clusters de calcul de données », page 52
n
« À propos des clusters personnalisés », page 64
n
36 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

À propos des types de déploiement de clusters Hadoop et HBase

Avec Big Data Extensions, vous pouvez créer et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
Cluster HBase
Cluster de séparation de données et de calcul
Cluster de calcul uniquement
Cluster de calcul de travailleurs uniquement
Cluster uniquement HBase
Déploiement Hadoop simple pour les projets de validation technique et d'autres tâches de traitement de données à petite échelle. Le cluster Hadoop de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure MapReduce traite les problèmes en parallèle sur d'énormes jeux de données dans le HDFS.
Il s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes quantités de données éparses.
Sépare les nœuds de données et de calcul ou les clusters qui contiennent des nœuds de calcul uniquement. Dans ce type de cluster, le nœud de données et le nœud de calcul ne sont pas sur la même machine virtuelle.
Vous pouvez créer un cluster qui contient uniquement des nœuds de calcul, par exemple des nœuds JobTracker, TaskTracker, ResourceManager et NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de calcul uniquement sert à exécuter des tâches MapReduce sur un cluster HDFS externe.
Contient uniquement des nœuds worker, par exemple des nœuds TaskTracker et NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de calcul de travailleurs uniquement sert à ajouter des nœuds de calcul worker à un cluster Hadoop existant.
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase uniquement peuvent utiliser le même cluster HDFS externe.
Cluster personnalisé
Utilise un fichier de spécification de cluster pour créer des clusters à l'aide de la même configuration que celle des clusters précédemment créés. Vous pouvez modifier le fichier de spécification de cluster pour personnaliser la configuration du cluster.

Configurations des clusters Hadoop par défaut pour Serengeti

Pour les déploiements Hadoop de base, tels que les projets de validation technique, vous pouvez utiliser la configuration de cluster Hadoop par défaut pour Serengeti dans le cas des clusters créés avec l'interface de ligne de commande.
Le déploiement du cluster obtenu se compose des machines virtuelles et nœuds suivants :
Une machine virtuelle de nœud master avec les services NameNode et JobTracker.
n
Trois machines virtuelles de nœud worker, chacune avec les services DataNode et TaskTracker.
n
Une machine virtuelle de nœud client contenant l'environnement client Hadoop : le shell client
n
Hadoop, Pig et Hive.
VMware, Inc. 37
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN)

Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge à la fois MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par défaut sont différentes. La configuration de cluster Hadoop par défaut pour CDH4 est un cluster MapReduce v1. La configuration de cluster Hadoop par défaut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.

Configurations des clusters HBase par défaut pour Serengeti

HBase est une base de données distribuée en colonnes open source qui utilise MapReduce et HDFS pour gérer les données. Vous pouvez utiliser HBase pour créer des applications de table volumineuses.
Pour exécuter les tâches HBase MapReduce, configurez le cluster HBase de façon à inclure les nœuds JobTracker ou TaskTracker. Lorsque vous créez un cluster HBase avec l'interface de ligne de commande, conformément au modèle Serengeti HBase par défaut, le cluster obtenu se compose des nœuds suivants :
Un nœud master, qui exécute les services NameNode et HBaseMaster.
n
Trois nœuds zookeeper, chacun exécutant le service ZooKeeper.
n
Trois nœuds de données, chacun exécutant les services DataNode et HBase Regionserver.
n
Un nœud client, à partir duquel vous pouvez exécuter les tâches Hadoop ou HBase.
n
Le cluster HBase par défaut déployé par Serengeti ne contient pas de démons Hadoop JobTracker ou Hadoop TaskTracker. Pour exécuter une tâche HBase MapReduce, déployez un cluster HBase personnalisé non par défaut.

À propos de la topologie des clusters

Vous pouvez améliorer l'équilibrage de la charge de travail entre vos nœuds de cluster et accroître les performances et le débit en spécifiant comment les machines virtuelles Hadoop sont placées, à l'aide de la reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse la topologie de l'hôte de votre environnement et les informations sur le réseau. Les performances d'Hadoop sont supérieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est disponible, plutôt que les transferts hors rack lorsqu'il attribue des tâches MapReduce aux nœuds. HDFS peut placer des réplicas de manière plus intelligente pour améliorer les performances et la résilience. Par exemple, si vous avez des nœuds de données et des nœuds de calcul distincts, vous pouvez améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut.
38 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Vous pouvez spécifier les configurations suivantes de reconnaissance de la topologie.
Extensions de virtualisation Hadoop (HVE, Hadoop Virtualization Extensions)
Fiabilité et performances des clusters améliorées grâce à un placement des réplicas, une planification des tâches et des politiques d'équilibrage Hadoop plus précis. Les clusters Hadoop implémentés dans une infrastructure virtualisée sont dotés d'une reconnaissance complète de la topologie sur laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et vous devez créer et télécharger un fichier de mappage rack-hôtes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les informations sur le rack et l'hôte sont exposées à Hadoop. Pour utiliser RACK_AS_RACK, créez et téléchargez un fichier de topologie de serveur.
HÔTE_EN_RACK
Topologie simplifiée pour les distributions Apache Hadoop. Pour éviter de placer tous les réplicas de blocs de données HDFS sur le même hôte physique, chaque hôte physique est traité comme un rack. Étant donné que les réplicas des blocs de données ne sont jamais placés sur un rack, cela évite le pire scénario où une défaillance d'un seul hôte provoque la perte totale d'un bloc de données.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne disposez pas d'informations sur le rack vous permettant de décider des options de configuration de la topologie.
Aucune
Aucune topologie n'est spécifiée.

Fichier de mappage rack/hôtes de la topologie

Les fichiers de mappage rack/hôtes de la topologie sont des fichiers texte brut qui associent les racks logiques aux hôtes physiques. Ces fichiers sont obligatoires pour créer des clusters avec une topologie HVE ou RACK_AS_RACK.
Le format de chaque ligne d'un fichier de mappage rack/hôtes de la topologie est :
rackname: hostname1, hostname2 ...
Par exemple, pour affecter les hôtes physiques a.b.foo.com et a.c.foo.com à rack1, et l'hôte physique c.a.foo.com à rack2, incluez les lignes suivantes dans votre fichier de mappage rack/hôtes de la topologie.
rack1: a.b.foo.com, a.c.foo.com rack2: c.a.foo.com

Fichiers de définition de la stratégie de placement de la topologie

Le champ placementPolicies du fichier de spécification de cluster contrôle la façon dont les nœuds sont placés dans le cluster.
Si vous spécifiez des valeurs pour instancePerHost et pour groupRacks, il doit y avoir un nombre suffisant d'hôtes disponibles. Pour afficher les informations sur les racks hôtes, utilisez la commande topology list.
Le code illustre un exemple du champ placementPolicies dans un fichier de spécification de cluster.
{ "nodeGroups":[ … { "name": "group_name", … "placementPolicies": {
VMware, Inc. 39
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"instancePerHost": 2, "groupRacks": { "type": "ROUNDROBIN", "racks": ["rack1", "rack2", "rack3"] }, "groupAssociations": [{ "reference": "another_group_name", "type": "STRICT" // or "WEAK" }] } }, … }
Tableau 51. Définition de l'objet placementPolicies
Champ JSON Type Description
instancePerHost Facultatif Nombre de nœuds de machine
groupRacks Facultatif Méthode de répartition des nœuds de
groupAssociations Facultatif Un ou plusieurs groupes de nœuds
virtuelle à placer pour chaque hôte ESXi physique. Cette contrainte est destinée à équilibrer la charge de travail.
machine virtuelle entre les racks physiques du cluster. Spécifiez les chaînes JSON suivantes :
n
type. Spécifiez ROUNDROBIN pour sélectionner les candidats équitablement et sans priorité.
n
racks. Racks de la carte de topologie à utiliser.
cibles auquel ou auxquels ce groupe de nœuds est associé. Spécifiez les chaînes JSON suivantes :
n
reference. Nom du groupe de nœuds cible
n
type: STRICT. Placez le groupe de
n
nœuds sur l'ensemble ou le sous­ensemble d'hôtes ESXi du groupe cible. Si le placement STRICT n'est pas possible, l'opération échoue.
FAIBLE. Essayez de placer le
n
groupe de nœuds sur l'ensemble ou le sous-ensemble d'hôtes ESXi du groupe cible, mais si ce n'est pas possible, utilisez un hôte ESXi supplémentaire.
40 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster avec prise en charge de la topologie à l'aide de l'interface de ligne de commande Serengeti

Pour obtenir une charge de travail équilibrée ou améliorer les performances et le débit, vous pouvez contrôler la façon dont les machines virtuelles Hadoop sont placées en ajoutant la prise en charge de la topologie aux clusters Hadoop. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 (Facultatif) Exécutez la commande topology list pour afficher la liste des topologies disponibles.
topology list
3 (Facultatif) Si vous voulez que le cluster utilise les topologies HVE ou RACK_AS_RACK, créez un
fichier de mappage rack/hôtes de topologie, puis téléchargez le fichier sur le serveur de gestion Serengeti.
topology upload --fileName name_of_rack_hosts_mapping_file
4 Exécutez la commande cluster create pour créer le cluster.
cluster create --name cluster-name ... --topology {HVE|RACK_AS_RACK|HOST_AS_RACK}
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
L'exemple crée une topologie HVE.
cluster create --name cluster-name --topology HVE --distro name_of_HVE-supported_distro
5 Affichez les nœuds alloués sur chaque rack.
cluster list --name cluster-name –-detail

À propos des clusters HBase

HBase s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes quantités de données éparses.
VMware, Inc. 41
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Créer un cluster HBase par défaut avec l'interface de ligne de commande Serengeti

Vous pouvez utiliser l'Serengeti CLI pour déployer les clusters HBase sur HDFS.
Cette tâche crée un cluster HBase par défaut qui ne contient pas l'infrastructure MapReduce. Exécuter les tâches MapReduce HBase, ajoutez les nœuds Jobtracker et TaskTracker ou ResourceManager et NodeManager à l'exemple de fichier de spécification de cluster HBase par défaut /opt/serengeti/samples/default_hbase_cluster.json, puis créez un cluster à l'aide de ce fichier de spécification.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez le cluster create command et spécifiez la valeur du paramètre --type comme hbase.
cluster create --name cluster_name --type hbase
Suivant
Après avoir déployé le cluster, vous pouvez accéder à une base de données HBase à l'aide de plusieurs méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.

Créer un cluster uniquement HBase dans Big Data Extensions

Big Data Extensions vous permet de créer un cluster uniquement HBase qui contient uniquement des nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le cluster uniquement HBase présente l'avantage de permettre à plusieurs clusters HBase d'utiliser le même HDFS externe.
Procédure
1 Conditions préalables à la création d'un cluster uniquement HBase page 43
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit toutes les conditions préalables.
2 Préparer EMC Isilon OneFS en tant que cluster HDFS externe page 43
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS.
3 Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti page 44
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase.
42 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Conditions préalables à la création d'un cluster uniquement HBase
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit toutes les conditions préalables.
Conditions préalables
Vérifiez que vous avez démarré Serengeti vApp.
n
Vérifiez que vous avez plusieurs distributions si vous voulez en utiliser une différente de celle par
n
défaut.
Vérifiez que vous avez un cluster HDFS existant à utiliser en tant que cluster HDFS externe.
n
Pour éviter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters doivent utiliser la même distribution Hadoop et la même version.
Si le cluster HDFS n'a pas été créé à l'aide de Big Data Extensions, vérifiez que le répertoire
n
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS externe :
hdfs
n
hbase
n
serengeti
n
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vérifiez que votre environnement
n
Isilon est préparé.
Pour plus d'informations sur la manière de préparer votre environnement, consultez « Préparer EMC
Isilon OneFS en tant que cluster HDFS externe », page 43.
Préparer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS.
Procédure
1 Connectez-vous à l'un des nœuds HDFS Isilon en tant que user root
2 Créez les utilisateurs.
hdfs
n
hbase
n
serengeti
n
mapred
n
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'écriture; de lecture et d'exécution pour tout le répertoire HDFS exporté.
3 Créez le groupe d'utilisateurs hadoop.
4 Créez le répertoire tmp sous le répertoire HDFS racine.
5 Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 777.
6 Créez le répertoire hadoop sous le répertoire HDFS racine.
7 Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 775.
8 Créez le répertoire hbase sous le répertoire hadoop.
VMware, Inc. 43
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
9 Définissez le propriétaire en tant que hbase:hadoop et les autorisations de lecture et d'écriture 775.
10 Définissez le propriétaire du répertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
isi auth users create --name="hdfs" isi auth users create --name="hbase" isi auth users create --name="serengeti" isi auth groups create --name="hadoop" pw useradd mapred -G wheel pw useradd yarn -G wheel chown hdfs:hadoop /ifs mkdir /ifs/tmp chmod 777 /ifs/tmp chown hdfs:hadoop /ifs/tmp mkdir -p /ifs/hadoop/hbase chmod -R 775 /ifs/hadoop chown hdfs:hadoop /ifs/hadoop chown hbase:hadoop /ifs/hadoop/hbase
Suivant
Vous êtes maintenant prêt à créer le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster externe.
Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par défaut, car les autres gestionnaires d'applications ne prennent pas en charge les clusters uniquement HBase.
Procédure
1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de
nœud du cluster HDFS externe.
3 Accédez à l'interface de ligne de commande Serengeti.
4 Exécutez la commande cluster create.
cluster create --name clustername --distro distroname
--specfile specfile_location
Le fichier /opt/serengeti/samples/hbase_only_cluster.json est un exemple de fichier de spécification pour les clusters uniquement HBase. Il contient les rôles zookeeper, hbase_master et hbase_regionserver, mais pas le rôle hadoop_namenode/hadoop_datanode.
5 Pour vérifier que le cluster a été créé, exécutez la commande cluster list .
cluster list --name name
Lorsque le cluster est créé, le système retourne Cluster clustername créé.
44 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster HBase avec protection HA vSphere à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez créer des clusters HBase avec des rôles maîtres Hadoop NameNode et HBase distincts. Vous pouvez configurer la protection HA vSphere HA pour les rôles maîtres.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
rôles des groupes de nœuds et la protection vSphere HA.
Dans cet exemple, le cluster possède les nœuds JobTracker et TaskTracker, qui vous permettent d'exécuter les tâches HBase MapReduce. Les rôles maîtres Hadoop NameNode et HBase sont distincts, et les deux sont protégés par vSphere HA.
{ "nodeGroups" : [ { "name" : "zookeeper", "roles" : [ "zookeeper" ], "instanceNum" : 3, "instanceType" : "SMALL", "storage" : { "type" : "shared", "sizeGB" : 20 }, "cpuNum" : 1, "memCapacityMB" : 3748, "haFlag" : "on", "configuration" : { } }, { "name" : "hadoopmaster", "roles" : [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum" : 1, "instanceType" : "MEDIUM", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 2, "memCapacityMB" : 7500,
VMware, Inc. 45
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"haFlag" : "on", "configuration" : { } }, { "name" : "hbasemaster", "roles" : [ "hbase_master" ], "instanceNum" : 1, "instanceType" : "MEDIUM", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 2, "memCapacityMB" : 7500, "haFlag" : "on", "configuration" : { } },
{ "name" : "worker", "roles" : [ "hadoop_datanode", "hadoop_tasktracker", "hbase_regionserver" ], "instanceNum" : 3, "instanceType" : "SMALL", "storage" : { "type" : "local", "sizeGB" : 50 }, "cpuNum" : 1, "memCapacityMB" : 3748, "haFlag" : "off", "configuration" : { } }, { "name" : "client", "roles" : [ "hadoop_client", "hbase_client" ], "instanceNum" : 1, "instanceType" : "SMALL", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 1, "memCapacityMB" : 3748,
46 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"haFlag" : "off", "configuration" : { } } ], // we suggest running convert-hadoop-conf.rb to generate "configuration" section and paste the output here "configuration" : { "hadoop": { "core-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/core­default.html // note: any value (int, float, boolean, string) must be enclosed in double quotes and here is a sample: // "io.file.buffer.size": "4096" }, "hdfs-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/hdfs­default.html }, "mapred-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/mapred­default.html }, "hadoop-env.sh": { // "HADOOP_HEAPSIZE": "", // "HADOOP_NAMENODE_OPTS": "", // "HADOOP_DATANODE_OPTS": "", // "HADOOP_SECONDARYNAMENODE_OPTS": "", // "HADOOP_JOBTRACKER_OPTS": "", // "HADOOP_TASKTRACKER_OPTS": "", // "HADOOP_CLASSPATH": "", // "JAVA_HOME": "", // "PATH": "" }, "log4j.properties": { // "hadoop.root.logger": "DEBUG,DRFA", // "hadoop.security.logger": "DEBUG,DRFA" }, "fair-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/fair_scheduler.html // "text": "the full content of fair-scheduler.xml in one line" }, "capacity-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/capacity_scheduler.html }, "mapred-queue-acls.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/cluster_setup.html#Configuring+the+Hadoop+Daemons // "mapred.queue.queue-name.acl-submit-job": "", // "mapred.queue.queue-name.acl-administer-jobs", "" } },
VMware, Inc. 47
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"hbase": { "hbase-site.xml": { // check for all settings at http://hbase.apache.org/configuration.html#hbase.site }, "hbase-env.sh": { // "JAVA_HOME": "", // "PATH": "", // "HBASE_CLASSPATH": "", // "HBASE_HEAPSIZE": "", // "HBASE_OPTS": "", // "HBASE_USE_GC_LOGFILE": "", // "HBASE_JMX_BASE": "", // "HBASE_MASTER_OPTS": "", // "HBASE_REGIONSERVER_OPTS": "", // "HBASE_THRIFT_OPTS": "", // "HBASE_ZOOKEEPER_OPTS": "", // "HBASE_REGIONSERVERS": "", // "HBASE_SSH_OPTS": "", // "HBASE_NICENESS": "", // "HBASE_SLAVE_SLEEP": "" }, "log4j.properties": { // "hbase.root.logger": "DEBUG,DRFA" } }, "zookeeper": { "java.env": { // "JVMFLAGS": "-Xmx2g" }, "log4j.properties": { // "zookeeper.root.logger": "DEBUG,DRFA" } } } }
2 Accédez à l'interface de ligne de commande Serengeti.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename

Créer un cluster du travailleur uniquement HBase avec un cluster HA HDFS namenode externe

Vous pouvez créer un cluster du travailleur uniquement HBase avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Les clusters du travailleur uniquement MapReduce v1 et les clusters uniquement HBase créés à l'aide
n
de la distribution MapR ne sont pas pris en charge.
Prérequis
Déployez le vApp Serengeti.
n
48 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
3 Modifiez la section de configuration du fichier de spécification de cluster uniquement HBase comme
illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
"configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1", "dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3", "dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4" } } }

À propos des clusters MapReduce

MapReduce est une infrastructure qui permet de traiter les problèmes en parallèle à travers des jeux de données volumineux. L'infrastructure MapReduce distribue à chaque nœud du réseau un certain nombre d'opérations sur le jeu de données.

Créer un cluster MapReduce v2 (YARN) avec l'interface de ligne de commande Serengeti

Vous pouvez créer des clusters MapReduce v2 (YARN) si vous voulez créer un cluster qui sépare les composants de traitement et de gestion des ressources.
Pour créer un cluster MapReduce v2 (YARN), créez un fichier de spécification de cluster inspiré du fichier /opt/serengeti/samples/default_hadoop_yarn_cluster.json, puis spécifiez le paramètre --specFile
et votre fichier de spécification de cluster dans la commande cluster create ....
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
VMware, Inc. 49
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande cluster create ....
Cet exemple crée un cluster MapReduce v2 personnalisé à l'aide de la distribution CDH4 selon l'exemple de fichier de spécification de cluster default_hadoop_yarn_cluster.json.
cluster create --name cluster_name --distro cdh4 --specFile /opt/serengeti/samples/default_hadoop_yarn_cluster.json

Créer un cluster du travailleur uniquement MapReduce v1 avec un cluster HA HDFS namenode externe

Vous pouvez créer un cluster du travailleur uniquement MapReduce v1 avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Vous ne pouvez pas utiliser la distribution MapR pour créer des clusters du travailleur uniquement
n
MapReduce v1 et des clusters uniquement HBase.
Prérequis
Démarrez le vApp Big Data Extensions.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_mr1.json
2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
3 Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
4 Modifiez la section de configuration du fichier de spécification de cluster du travailleur MapReduce
comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
{ "externalHDFS": "hdfs://dataMaster", "externalMapReduce": "xx.xxx.xxx.xxx:8021", "nodeGroups":[ { "name": "worker", "roles": [ "hadoop_tasktracker" ],
50 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } } ], "configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.111.xx.xxx:xxx2", "dfs.namenode.http-address.dataMaster.namenode0": "10.111.xx.xxx:xxx3", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.111.xx.xxx:xxx4", "dfs.namenode.http-address.dataMaster.namenode1": "10.111.xx.xxx:xxx5" } } } }

Créer un cluster du travailleur uniquement MapReduce v2 avec un cluster HA HDFS namenode externe

Vous pouvez créer un cluster du travailleur uniquement MapReduce v2 (Yarn) avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
n
Ambari et Cloudera Manager.
Vous ne pouvez pas utiliser une distribution MapR pour déployer des clusters du travailleur
n
uniquement MapReduce v1 et des clusters uniquement HBase.
Prérequis
Démarrez le vApp Big Data Extensions.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_yarn.json
2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
VMware, Inc. 51
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3 Remplacez le hostname-of-resourcemanager du fichier de spécification par le FQDN ou l'adresse IP du
ResourceManager du cluster externe.
4 Modifiez la section de configuration du fichier de spécification de cluster du travailleur uniquement
Yarn comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
{ "externalHDFS": "hdfs://dataMaster", "externalMapReduce": "xx.xxx.xxx.xxx:8021", "nodeGroups":[ { "name": "worker", "roles": [ "hadoop_nodemanager" ], "instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } } ], "configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1", "dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3", "dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4" } } } }

À propos des clusters de calcul de données

Vous pouvez séparer les nœuds de données et de calcul d'un cluster Hadoop. Vous pouvez aussi contrôler la façon dont les nœuds sont placés sur les hôtes vSphere ESXi de votre environnement.
Vous pouvez créer un cluster de calcul uniquement pour exécuter les tâches MapReduce. Les clusters de calcul uniquement n'exécutent que les services MapReduce qui lisent les données à partir de clusters HDFS externes et qui n'ont pas besoin de stocker les données.
Les gestionnaires d'applications Ambari et Cloudera Manager ne prennent en charge ni la séparation calcul/données, ni les clusters de calcul uniquement.
52 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster distinct données-calcul avec prise en charge de la topologie et contraintes de placement

Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de topologie et de stratégie de placement afin de répartir les nœuds entre les racks physiques et les machines virtuelles.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut.
Prérequis
Démarrez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Créez un fichier d'informations de mappage rack/hôte.
n
Téléchargez le fichier rack/hôte sur le serveur Serengeti avec la commande topology upload.
n
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds, la topologie et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
Dans cet exemple, le cluster a des contraintes groupAssociations et instancePerHost pour le groupe de nœuds de calcul et une contrainte groupRacks pour le groupe de nœuds de données.
Quatre nœuds de données et huit nœuds de calcul sont placés sur les quatre mêmes hôtes ESXi, qui sont équitablement sélectionnés depuis rack1, rack2 et rack3. Chaque hôte ESXi possède un nœud de données et deux nœuds de calcul. Comme défini pour le groupe de nœuds de calcul, les nœuds de calcul sont placés uniquement sur les hôtes ESXi ayant des nœuds de données.
Cette définition de cluster nécessite que vous configuriez les banques de données et les pools de ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti exécute les placements nécessaires pendant le déploiement.
{ "nodeGroups":[ { "name": "master", "roles": [
VMware, Inc. 53
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 }, "placementPolicies": { "instancePerHost": 1, "groupRacks": { "type": "ROUNDROBIN", "racks": ["rack1", "rack2", "rack3"] }, } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, "placementPolicies": { "instancePerHost": 2, "groupAssociations": [ { "reference": "data", "type": "STRICT" } } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ],
54 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } }
2 Accédez à l'interface de ligne de commande Serengeti.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename

Créer un cluster distinct données-calcul sans contraintes de stratégie de placement

Vous pouvez créer un cluster avec des nœuds données et calcul distincts sans contraintes de placement de nœud.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, sans contraintes de stratégie de placement. Quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Le nombre de nœuds est configuré par l'attribut instanceNum.
{ "nodeGroups":[ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, },
VMware, Inc. 55
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
{ "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } }
2 Accédez à l'interface de ligne de commande Serengeti.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
56 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster distinct données-calcul avec contraintes de stratégie de placement

Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de stratégie de placement afin de répartir les nœuds entre les machines virtuelles à votre guise.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, et chaque groupe de nœuds a une contrainte placementPolicy. Après un provisionnement réussi, quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Avec la contrainte
instancePerHost=1, les quatre nœuds de données sont placés sur quatre hôtes ESXi. Les huit nœuds de
calcul sont placé sur quatre hôtes ESXi : deux nœuds sur chaque hôte ESXi.
Cette spécification de cluster nécessite que vous configuriez les banques de données et les pools de ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti exécute les placements nécessaires pendant le déploiement.
{ "nodeGroups":[ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500,
VMware, Inc. 57
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
}, { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 }, "placementPolicies": { "instancePerHost": 1 } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, "placementPolicies": { "instancePerHost": 2 } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } }
2 Accédez à l'interface de ligne de commande Serengeti.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
58 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster de calcul uniquement avec le gestionnaire d'applications par défaut

Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS existants, y compris les solutions de stockage faisant office de HDFS externe.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
Serengeti compute_only_cluster.json disponible dans le répertoire Serengeti cli/samples.
2 Ajoutez le contenu suivant à un nouveau fichier de spécification de cluster.
Dans cet exemple, le fichier externalHDFS pointe vers un HDFS. Attribuez le rôle hadoop_jobtracker au groupe de nœuds master et le rôle hadoop_tasktracker au groupe de nœuds worker.
Le champ externalHDFS est en conflit avec les groupes de nœuds ayant les rôles hadoop_namenode et
hadoop_datanode. Ce conflit peut entraîner l'échec de la création du cluster ou, si la création réussit, il se
peut que le cluster ne fonctionne pas correctement. Pour éviter ce problème, définissez uniquement un seul HDFS.
{ "externalHDFS": "hdfs://hostname-of-namenode:8020", "nodeGroups": [ { "name": "master", "roles": [ "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "worker", "roles": [ "hadoop_tasktracker", ], "instanceNum": 4, "cpuNum": 2, "memCapacityMB": 7500, "storage": {
VMware, Inc. 59
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"type": "LOCAL", "sizeGB": 20 }, }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 }, } ], “configuration” : { } }
3 Accédez à l'interface de ligne de commande Serengeti.
4 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name cluster_name --distro distro_name --specFile path/spec_file_name

Créer un cluster de calcul uniquement avec le gestionnaire d'applications Cloudera Manager

Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS existants, y compris les solutions de stockage faisant office de HDFS externe.
Vous pouvez utiliser un gestionnaire d'applications Cloudera Manager avec un système HDFS externe.
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que
cluster HDFS externe », page 43
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
yarn_compute_only_cluster.json disponible dans le répertoire /opt/serengeti/samples/cloudera­manager/ du serveur Serengeti.
60 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
2 Ajoutez le code suivant à votre nouveau fichier de spécification de cluster.
Dans ce fichier de spécification de cluster, le champ default_fs_name pointe vers un URI HDFS Namenode et le champ webhdfs_url pointe vers une URL Web HDFS.
{ "nodeGroups": [ { "name": "master", "roles": [ "YARN_RESOURCE_MANAGER", "YARN_JOB_HISTORY" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "SHARED", "sizeGB": 50 }, "haFlag": "on", "configuration": { } }, { "name": "worker", "roles": [ "YARN_NODE_MANAGER", "GATEWAY" ], "instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 50 }, "haFlag": "off", "configuration": { } } ], "configuration": { "ISILON": { // service level configurations // check for all settings by running "appmanager list --name <name> --configurations" "default_fs_name": "hdfs://FQDN:8020", "webhdfs_url": "hdfs://FQDN:8020/webhdfs/v1" }, "YARN": { // service level configurations }, "YARN_RESOURCE_MANAGER": { }, "YARN_NODE_MANAGER": {
VMware, Inc. 61
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"yarn_nodemanager_local_dirs": "/yarn/nm" } } }
3 Accédez à l'Serengeti CLI.
4 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name

Créer un cluster de calcul uniquement avec Ambari Application Manager et Isilon

Vous pouvez créer un cluster de calcul uniquement avec le gestionnaire d'applications Ambari à l'aide de Isilon OneFS. Pour créer un cluster de calcul uniquement à l'aide de Isilon OneFS, vous devez activer Isilon SmartConnect (équilibrage de la charge réseau).
Pour utiliser EMC Isilon OneFS comme cluster HDFS externe du cluster HBase uniquement, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs et préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop par défaut, ajoutez une
n
ou plusieurs distributions de fournisseurs à votre environnementBig Data Extensions. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Vérifiez que la distribution Hadoop que vous souhaitez utiliser est compatible avec Isilon OneFS.
n
Rendez-vous sur le site Internet EMC et consultez la section Distributions Hadoop prises en charge
dans OneFS.
Procédure
1 Créez un fichier de spécification de cluster modélisé sur l'un des fichiers exemples de spécification de
cluster suivants : hdp_v2_1_yarn_compute_only_cluster.json ou
hdp_v2_2_yarn_compute_only_cluster.json. Vous trouverez ces fichiers exemples dans le
répertoire /opt/serengeti/samples/ambari/ du serveur Serengeti.
2 Activez Isilon SmartConnect.
isi networks modify subnet --sc-service-addr=SmartConnect_IP --name=subnet_name isi networks modify pool --name=subnet_name:pool_name --sc-subnet=subnet_name -­zone=zone_name
3 Spécifiez le serveur Ambari et nommez le nœud FQDN dans votre environnement Islion.
isi zone zones modify System --hdfs-ambari-namenode=smart_connect_FQDN isi zone zones modify System --hdfs-ambari-server=ambari_server_FQDN
4 Modifiez le fichier de spécification du
cluster, /opt/serengeti/samples/ambari/hdp_v2_*_yarn_compute_only_cluster.json et définissez
externalNamenode sur Isilon SmartConnect FQDN. Si l'attribut externalSecondaryNamenode du fichier de
spécification du cluster est défini sur la même valeur que externalNamenode, supprimez l'entrée pour
externalSecondaryNamenode.
5 Accédez à l'Serengeti CLI.
62 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
6 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name
Suivant
Vérifiez que votre cluster géré de calcul uniquement Ambari est créé correctement, avec la configuration nécessaire pour votre environnement et votre utilisation.

Créer un cluster de calcul du travailleur uniquement avec un cluster HDFS HA sans Namenode

Si vous avez déjà un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster du travailleur uniquement. Le cluster du travailleur uniquement fait partie du cluster Hadoop physique et peut être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster physique existant ou à un cluster Hadoop virtuel.
Restrictions.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les
n
gestionnaires d'applications Ambari et Cloudera Manager.
Ces options ne sont pas prises en charge sur les clusters de calcul du
n
travailleur uniquement.
--appmanager appmanager_name
n
--type cluster_type
n
--hdfsNetworkName hdfs_network_name
n
--mapredNetworkName mapred_network_name
n
Prérequis
Démarrez le vApp Big Data Extensions.
n
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/compute_workers_only_mr1.json
2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de nœud
du cluster HDFS externe.
3 Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
VMware, Inc. 63
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
4 Modifiez la section de configuration du fichier de spécification du cluster MapReduce du travailleur
uniquement. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.

À propos des clusters personnalisés

Vous pouvez utiliser un fichier de spécification de cluster existant pour créer des clusters à l'aide de la même configuration que celle des clusters précédemment créés. Vous pouvez aussi modifier le fichier de spécification de cluster pour personnaliser la configuration du cluster.

Créer un cluster Hadoop Serengeti par défaut avec l'interface de ligne de commande Serengeti

Vous pouvez créer autant de clusters que vous le voulez dans votre environnement Serengeti, mais votre environnement doit satisfaire toutes les conditions préalables.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Déployez un cluster Hadoop Serengeti par défaut sur vSphere.
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop fournie, ajoutez une
n
ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
cluster create --name cluster_name
Les seuls caractères valides dans les noms de clusters sont les caractères alphanumériques et les traits de soulignement. Quand vous choisissez le nom de cluster, tenez également compte du nom de vApp applicable. Ensemble, les noms de vApp et du cluster doivent comprendre moins de 80 caractères.
Pendant le processus de déploiement, les mises à jour en progression en temps réel apparaissent sur la ligne de commande.
Suivant
Lorsque le déploiement est terminé, vous pouvez exécuter les commandes Hadoop et afficher les adresses IP des machines virtuelles des nœuds Hadoop à partir de l'Serengeti CLI.
64 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster de base avec l'interface de ligne de commande Serengeti

Vous pouvez créer un cluster de base dans votre environnement Serengeti. Un cluster de base est un groupe de machines virtuelles provisionnées et gérées par Serengeti. Serengeti vous permet de planifier et de provisionner les machines virtuelles selon vos spécifications et d'utiliser les machines virtuelles pour installer les applications Big Data.
Le cluster de base n'installe pas les packages d'application Big Data utilisés lors de la création d'un cluster. Vous pouvez à la place installer et gérer des applications Big Data avec des outils de gestion d'application tiers, tels qu'Ambari ou Cloudera Manager, au sein de votre environnement Big Data Extensions, et l'intégrer à votre logiciel Hadoop. Le cluster de base ne déploie pas de cluster. Vous devez déployer les logiciels sur les machines virtuelles à l'aide d'un outil de gestion d'application tiers externe.
Le package Serengeti inclut un exemple annoté de fichier de spécification de cluster que vous pouvez utiliser comme exemple lorsque vous créez votre fichier de spécification de cluster de base. Dans le serveur de gestion Serengeti, l'exemple de fichier de spécification se trouve sur /opt/serengeti/samples/basic_cluster.json. Vous pouvez modifier les valeurs de configuration de l'exemple de fichier de spécification de cluster pour répondre à vos impératifs. La seule valeur que vous ne pouvez pas modifier est celle attribuée au rôle de chaque groupe de nœuds, qui doit toujours être basic.
Vous pouvez déployer un cluster de base avec le plug-in Big Data Extension à l'aide d'un fichier de spécification de cluster personnalisé.
Pour déployer les logiciels au sein des machines virtuelles du cluster de base, utilisez la commande cluster
list --detail ou exécutez serengeti-ssh.sh cluster_name pour obtenir l'adresse IP de la machine
virtuelle. Vous pouvez alors utiliser l'adresse IP avec des applications de gestion telles qu'Ambari ou Cloudera Manager pour provisionner la machine virtuelle avec les logiciels de votre choix. Vous pouvez configurer l'application de gestion pour qu'elle utilise le nom d'utilisateur Serengeti et le mot de passe que vous avez spécifiés lors de la création du cluster de base au sein de Big Data Extensions lorsque l'outil de gestion a besoin d'un nom d'utilisateur et d'un mot de passe pour se connecter aux machines virtuelles.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster, ainsi que le logiciel Big
n
Data que vous prévoyez de déployer.
Procédure
1 Créez un fichier de spécification pour définir les caractéristiques du cluster de base.
Vous devez utiliser le rôle basic pour chaque groupe de nœuds que vous définissez pour le cluster de base.
{ "nodeGroups":[ { "name": "master", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 250 },
VMware, Inc. 65
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"haFlag": "on" }, { "name": "worker", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 250 }, "haFlag": "off" } ] }
2 Accédez à l'interface de ligne de commande Serengeti.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification du cluster de base.
cluster create --name cluster_name --specFile /opt/serengeti/samples/basic_cluster.json -­password
REMARQUE Lors de la création d'un cluster de base, vous n'avez pas besoin de spécifier un type de distribution Hadoop à l'aide de l'option --distro. La raison en est qu'il n'y a aucune distribution Hadoop en cours d'installation au sein du cluster de base à gérer par Serengeti.

Créer un cluster avec un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser l'Serengeti CLI pour ajouter un cluster avec un gestionnaire d'applications autre que le gestionnaire d'applications par défaut. Vous pouvez ensuite gérer votre cluster avec le nouveau gestionnaire d'applications.
REMARQUE Si vous souhaitez créer un référentiel Yum local, vous devez créer le référentiel avant de créer le cluster.
Prérequis
Connectez-vous à un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster. Pour plus
n
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire d'applications.
Vérifiez que vous avez plusieurs distributions si vous voulez utiliser une distribution autre que la
n
distribution par défaut. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
66 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
2 Exécutez la commande cluster.
cluster create --name cluster_name --appManager appmanager_name
--[localrepoURL local_repository_url]
Si vous n'utilisez pas le paramètre appManager, c'est le gestionnaire d'applications par défaut qui est utilisé.

Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web Client

Si vous disposez déjà d'un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster de travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et peut être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster physique existant ou à un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager.
Prérequis
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Procédure
1 Cliquez sur Créer un cluster Big Data dans le volet Objets.
2 Dans l'assistant de création du cluster Big Data, choisissez la même distribution que le cluster Hadoop.
3 Définissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4 Définissez l'URL ComputeMaster nodeManager ip ou fqdn.
5 Suivez la procédure indiquée dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont enregistrés auprès du gestionnaire de ressources.

Créer un cluster avec un mot de passe administrateur à l'aide de l'interface de ligne de commande Serengeti

Lorsque vous créez un cluster, vous pouvez attribuer un mot de passe administrateur personnalisé à tous les nœuds du cluster. Les mots de passe d'administrateur personnalisés vous permettent de vous connecter directement aux nœuds au lieu d'avoir à vous connecter d'abord au serveur de gestion Serengeti.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
VMware, Inc. 67
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande cluster create et incluez le paramètre --password.
cluster create --name cluster_name --password
3 Entrez votre mot de passe personnalisé, puis entrez-le à nouveau.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Votre mot de passe personnalisé est attribué à tous les nœuds du cluster.

Créer un cluster avec une distribution disponible à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez sélectionner la distribution Hadoop à utiliser lorsque vous déployez un cluster. Si vous ne spécifiez pas de distribution Hadoop, le cluster obtenu est créé à l'aide de la distribution par défaut, Apache Bigtop.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande cluster create et incluez le paramètre --distro.
La valeur du paramètre --distro doit correspondre à un nom de distribution affiché par la commande
distro list.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
L'exemple déploie un cluster avec la distribution Cloudera CDH :
cluster create --name clusterName --distro cdh
L'exemple crée un cluster personnalisé nommé mycdh qui utilise la distribution Hadoop CDH5 et qui est configuré selon l'exemple de fichier de spécification de cluster /opt/serengeti/samples/default_cdh4_ha_and_federation_hadoop_cluster.json. Dans cet exemple de fichier, nameservice0 et nameservice1 sont fédérés. Autrement dit, nameservice0 et
nameservice1 sont indépendants et ne nécessitent pas d'être coordonnés entre eux. Les nœuds
NameNode du groupe de nœuds nameservice0 prennent en charge HDFS2 HA. Dans Serengeti, les noms de groupes de nœuds de noms sont utilisés comme noms de service pour HDFS2.
cluster create --name mycdh --distro cdh5 --specFile /opt/serengeti/samples/default_cdh5_ha_hadoop_cluster.json
68 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase

Créer un cluster à plusieurs réseaux à l'aide de l'interface de ligne de commande Serengeti

Lorsque vous créez un cluster, vous pouvez distribuer la gestion, le système de fichiers HDFS et le trafic MapReduce pour séparer les réseaux. Vous pouvez souhaiter utiliser des réseaux distincts pour améliorer les performances ou isoler le trafic à des fins de sécurité.
Pour optimiser les performances, utilisez le même réseau pour le trafic HDFS et MapReduce dans les clusters Hadoop et Hadoop+HBase. Les clusters HBase utilisent le réseau HDFS pour le trafic lié aux services HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs réseaux pour les clusters qui utilisent la distribution Hadoop MapR.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande cluster create et incluez les paramètres --networkName, --hdfsNetworkName et
--mapredNetworkName.
cluster create --name cluster_name --networkName management_network [--hdfsNetworkName hdfs_network] [--mapredNetworkName mapred_network]
Si vous omettez l'un des paramètres réseau facultatifs, le trafic associé à ce paramètre réseau est acheminé sur le réseau de gestion spécifié par le paramètre --networkName.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
La gestion du cluster, le système de fichiers HDFS et le trafic MapReduce sont répartis entre les réseaux spécifiés.

Créer un cluster avec ressources assignées à l'aide de l'interface de ligne de commande Serengeti

Par défaut, lorsque vous utilisez Serengeti pour déployer un cluster Hadoop, le cluster peut contenir tout ou partie des ressources disponibles : le pool de ressources vCenter Server pour le CPU et la mémoire des machines virtuelles, les banques de données pour le stockage de la machine virtuelle et un réseau. Vous pouvez affecter les ressources que le cluster utilise en spécifiant des pools de ressources spécifiques, des banques de données et/ou un réseau lorsque vous créez le cluster Hadoop.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
VMware, Inc. 69
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande cluster create et spécifiez tout ou partie des paramètres de ressource de la
commande.
Cet exemple déploie un cluster nommé myHadoop sur la banque de données myDS, sous le pool de ressources myRP, et utilise le réseau myNW pour les communications des machines virtuelles.
cluster create --name myHadoop --rpNames myRP --dsNames myDS --networkName myNW

Créer un cluster avec un nombre quelconque de nœuds master, worker et client

Vous pouvez créer un cluster Hadoop avec un nombre quelconque de nœuds master, worker et client.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
Dans cet exemple, le cluster a une machine virtuelle maître de taille MOYENNE, cinq machines virtuelles du travailleur de taille PETITE et une machine virtuelle cliente de taille PETITE. L'attribut
instanceNum configure le nombre de machines virtuelles d'un nœud.
{ "nodeGroups" : [ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "instanceType": "MEDIUM" }, { "name": "worker", "roles": [
70 VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"hadoop_datanode", "hadoop_tasktracker" ], "instanceNum": 5, "instanceType": "SMALL" }, { "name": "client", "roles": [ "hadoop_client", "hive", "hive_server", "pig" ], "instanceNum": 1, "instanceType": "SMALL" } ] }
2 Accédez à l'Serengeti CLI.
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile directory_path/spec_filename

Créer un cluster Hadoop ou HBase personnalisé avec l'interface de ligne de commande Serengeti

Vous pouvez créer des clusters personnalisés en fonction de vos exigences, y compris le nombre de nœuds, la taille du disque et de la RAM de la machine virtuelle, le nombre de CPU, etc.
Le package Serengeti inclut plusieurs exemples annotés de fichier de spécification de cluster que vous pouvez utiliser comme modèles lorsque vous créez vos fichiers de spécification personnalisés.
Dans le serveur de gestion Serengeti, les exemples de fichiers de spécification de cluster se trouvent
n
dans /opt/serengeti/samples.
Si vous utilisez le client d'interface de ligne de commande distant Serengeti, les exemples de fichiers de
n
spécification sont dans le répertoire client.
La modification d'un rôle de groupe de nœuds peut entraîner l'échec du processus de création de cluster. Par exemple, comme les clusters faisant l'objet de travaux requièrent un NameNode, s'il n'existe aucun nœud NameNode après que vous avez modifié les rôles des groupes de nœuds, vous ne pouvez pas créer de cluster.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
2 Accédez à l'interface de ligne de commande Serengeti.
VMware, Inc. 71
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
Utilisez le chemin d'accès complet pour spécifier le fichier.
cluster create --name cluster_name --specFile full_path/spec_filename
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
72 VMware, Inc.
Gestion des clusters Hadoop et
HBase 6
Vous pouvez utiliser vSphere Web Client pour démarrer et arrêter votre cluster Big Data, et pour modifier la configuration du cluster. Vous pouvez également gérer un cluster à l'aide de l'interface de ligne de commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de cluster vers d'autres hôtes pour les clusters créés avec Big Data Extensions. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data Extensions telles que la récupération de défaillances de disque.
Ce chapitre aborde les rubriques suivantes :
« Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Agrandir un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti », page 75
n
« Reconfigurer un cluster avec l'interface de ligne de commande Serengeti », page 75
n
« Supprimer un cluster avec l'interface de ligne de commande Serengeti », page 78
n
« À propos de vSphere High Availability et de vSphere Fault Tolerance », page 78
n
« Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti », page 78
n
« Développer un cluster à l'aide de l'interface de ligne de commande », page 78
n
« Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti »,
n
page 80
« Effectuer la récupération d'une machine virtuelle de nœud de cluster », page 80
n
« Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
n
d'interface de ligne de commande Serengeti », page 81
VMware, Inc.
73
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti

Vous pouvez arrêter un cluster en cours d'exécution et démarrer un cluster arrêté à partir de l'interface de ligne de commande Serengeti. Lorsque vous démarrez ou arrêtez un cluster via Cloudera Manager ou Ambari, seuls les services sont démarrés ou arrêtés. Cependant, lorsque vous démarrez ou arrêtez un cluster via Big Data Extensions, non seulement les services, mais également les machines virtuelles sont démarrés ou arrêtés.
Prérequis
Vérifiez que le cluster est provisionné.
n
Vérifiez que suffisamment de ressources, notamment en termes de CPU et de mémoire, sont
n
disponibles pour démarrer les machines virtuelles du cluster Hadoop.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande cluster stop.
cluster stop –-name name_of_cluster_to_stop
3 Exécutez la commande cluster start.
cluster start –-name name_of_cluster_to_start

Agrandir un cluster avec l'interface de ligne de commande Serengeti

Vous spécifiez le nombre de nœuds du cluster lorsque vous créez des clusters Hadoop et HBase. Par la suite, vous pouvez agrandir le cluster en augmentant le nombre de nœuds worker et le nombre de nœuds client.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds d'un cluster, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération d'agrandissement du cluster. Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds.
Prérequis
Vérifiez que le cluster a démarré.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande cluster resize.
Pour node_type, spécifiez worker ou client. Pour la valeur num_nodes du paramètreinstanceNum, utilisez tout nombre supérieur au nombre actuel d'instances node_type.
cluster resize --name name_of_cluster_to_resize --nodeGroup node_type --instanceNum num_nodes
74 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase

Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti

Vous pouvez augmenter ou réduire la capacité de calcul et la RAM d'un cluster afin d'empêcher la contention des ressources mémoire des tâches en cours d'exécution.
Serengeti vous permet d'ajuster les ressources de calcul et de la mémoire, sans augmenter la charge de travail sur le nœud master. Si l'augmentation ou la diminution du CPU d'un cluster n'aboutit pas pour un nœud, ce qui est généralement dû à l'insuffisance des ressources disponibles, le nœud est rétabli à sa valeur de CPU originale. Si l'augmentation ou la diminution de la RAM d'un cluster n'aboutit pas pour un nœud, ce qui est généralement dû à l'insuffisance des ressources, le disque d'échange conserve sa nouvelle valeur. Le disque n'est pas rétabli à la valeur d'origine de la mémoire.
Même si tous les types de nœuds prennent en charge la mise à l'échelle du CPU et de la RAM, ne mettez pas à l'échelle le nœud master d'un cluster, carSerengeti arrête la machine virtuelle lors du processus de mise à l'échelle.
Les valeurs maximales pour le CPU et la RAM dépendent de la version de la machine virtuelle.
Tableau 61. Valeurs maximales pour le CPU et la RAM
Version de machine virtuelle Nombre maximal de CPU RAM maximale, en Go
7 8 255
8 32 1 011
9 64 1 011
10 64 1 011
Prérequis
Démarrez le cluster s'il n'est pas en cours d'exécution.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande cluster resize pour modifier le nombre de CPU ou la quantité de RAM d'un
cluster.
Les types de nœud sont travailleur ou client.
n
Spécifiez l'un et/ou l'autre des paramètres de mise à l'échelle : --cpuNumPerNode ou--
n
memCapacityMbPerNode.
cluster resize --name cluster_name --nodeGroup node_type [--cpuNumPerNode vCPUs_per_node] [--memCapacityMbPerNode memory_per_node]

Reconfigurer un cluster avec l'interface de ligne de commande Serengeti

Vous pouvez reconfigurer tout cluster big data que vous créez avec Big Data Extensions.
La configuration des clusters est spécifiée par des attributs dans des fichiers de configuration XML de distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere Big Data Extensions.
VMware, Inc. 75
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les fichiers de distribution Hadoop, reportez-vous à Chapitre 8, « Référence de spécification de cluster », page 87.
REMARQUE Utilisez toujours la commande cluster config pour modifier les paramètres spécifiés par les fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effacées si la machine virtuelle redémarre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Procédure
1 Utilisez la commande cluster export pour exporter le fichier de spécification pour le cluster que vous
souhaitez reconfigurer.
cluster export --name cluster_name --specFile file_path/cluster_spec_file_name
Option Description
cluster_name file_path
cluster_spec_file_name
Nom du cluster que vous souhaitez reconfigurer. Le chemin du système de fichiers vers lequel vous voulez exporter le
fichier de spécification. Le nom de l'étiquette à attribuer au fichier de spécification du cluster
exporté.
2 Modifiez les informations de configuration situées près de la fin du fichier de spécification du cluster
exporté.
Si vous modélisez votre fichier de configuration sur des fichiers de configuration XML Hadoop existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format JSON requis.
… "configuration": { "hadoop": { "core-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/core­default.html // note: any value (int, float, boolean, string) must be enclosed in double quotes and here is a sample: // "io.file.buffer.size": "4096" }, "hdfs-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/hdfs­default.html }, "mapred-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/mapred­default.html }, "hadoop-env.sh": { // "HADOOP_HEAPSIZE": "", // "HADOOP_NAMENODE_OPTS": "", // "HADOOP_DATANODE_OPTS": "", // "HADOOP_SECONDARYNAMENODE_OPTS": "", // "HADOOP_JOBTRACKER_OPTS": "", // "HADOOP_TASKTRACKER_OPTS": "", // "HADOOP_CLASSPATH": "", // "JAVA_HOME": "",
76 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
// "PATH": "", }, "log4j.properties": { // "hadoop.root.logger": "DEBUG, DRFA ", // "hadoop.security.logger": "DEBUG, DRFA ", }, "fair-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/fair_scheduler.html // "text": "the full content of fair-scheduler.xml in one line" }, "capacity-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/capacity_scheduler.html } } } …
3 (Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le répertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
spécification de cluster.
Cette opération permet aux démons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de spécification du cluster pour permettre à Hadoop d'utiliser les fichiers JAR.
… "configuration": { "hadoop": { "hadoop-env.sh": { "HADOOP_CLASSPATH": "/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH" }, "mapred-site.xml": { "mapred.jobtracker.taskScheduler": "org.apache.hadoop.mapred.FairScheduler" … }, "fair-scheduler.xml": { … } } } …
4 Accédez à l'Serengeti CLI.
5 Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile file_path/cluster_spec_file_name
6 (Facultatif) Réinitialisez un attribut de configuration existant à sa valeur par défaut.
a Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques inversées (//).
b Exécutez à nouveau la commande cluster config.
VMware, Inc. 77
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Supprimer un cluster avec l'interface de ligne de commande Serengeti

Vous pouvez supprimer un cluster dont vous n'avez plus besoin, qu'il soit en cours d'exécution ou pas. Quand un cluster est supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande cluster delete.
cluster delete --name cluster_name

À propos de vSphere High Availability et de vSphere Fault Tolerance

Le serveur de gestion Serengeti tire parti de la haute disponibilité vSphere pour protéger la machine virtuelle du nœud Hadoop master, qui peut être surveillée par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arrête de manière inattendue, vSphere redémarre la machine virtuelle Hadoop dans un autre hôte afin de réduire la période d'interruption non planifiée. Si vSphere Fault Tolerance est configuré et que la machine virtuelle du nœud master s'arrête de manière inattendue en raison du basculement ou de la perte de connectivité réseau d'un hôte, le nœud secondaire est utilisé, sans provoquer d'interruption de service.

Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti

Vous pouvez reconfigurer les groupes de nœuds en modifiant les données de configuration des groupes de nœuds du fichier de spécification de cluster associé. Lorsque vous configurez un groupe de nœuds, sa configuration remplace toute configuration de niveau cluster du même nom.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commandecluster export pour exporter le fichier de spécification de cluster du cluster.
cluster export --name cluster_name --specFile path_name/spec_file_name
3 Dans le fichier de spécification, modifiez la section de configuration du groupe de nœuds avec le même
contenu que la configuration de niveau cluster.
4 Ajoutez la configuration Hadoop personnalisée au groupe de nœuds que vous voulez reconfigurer.
5 Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile path_name/spec_file_name

Développer un cluster à l'aide de l'interface de ligne de commande

Vous pouvez développer un cluster Big Data existant en ajoutant des groupes de nœuds supplémentaires.
Procédure
1 Accédez à l'Serengeti CLI.
78 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2 Modifiez le fichier de spécification du cluster afin qu'il inclue les nouveaux groupes de nœuds que vous
souhaitez ajouter au cluster.
Lors de la modification du fichier de spécification du cluster pour développer le cluster, gardez les éléments suivants en tête.
Les nouveaux groupes de nœuds développés ne doivent pas avoir les mêmes noms que les groupes
n
de nœuds existants dans le cluster.
Veillez à utiliser une syntaxe correcte lors de la modification du fichier de spécification du cluster.
n
Chaque élément et sa valeur de configuration doivent être corrects, sans quoi l'opération de développement échouera.
Cet exemple illustre une configuration nodeGroups mise à jour à partir du fichier de spécification de cluster plus large.
{ "nodeGroups":[ { "name": "master1", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "SHARED", "sizeGB": 10 }, "haFlag": "on" }, { "name": "worker1", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 10 }, "haFlag": "off" } ] }
3 Exécutez la commande cluster expand pour appliquer la nouvelle configuration de cluster avec les
groupes de nœuds développés.
cluster expand --name cluster_name --specFile path_name/spec_file_name
Si l'opération cluster expand échoue, l'état du cluster change et devient PROVISION_ERROR. Pour effectuer une récupération à partir de cette condition, vérifiez que la syntaxe utilisée dans le fichier de spécification du cluster est correcte, puis exécutez de nouveau la commande cluster expand pour résoudre cette défaillance.
VMware, Inc. 79
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Suivant
Vous pouvez vérifier que les groupes de nœuds ont bien été ajoutés au cluster à l'aide de la commande
cluster list. Reportez-vous à « Afficher les clusters provisionnés avec l'interface de ligne de commande
Serengeti », page 85.

Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti

Dans le cas d'une défaillance de disque dans un cluster, si le disque ne joue aucun rôle de gestion tel que NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez récupérer à l'aide la commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des données (configurés en tant que JBOD). En cas de défaillance de plusieurs disques, le nœud de données Hadoop peut s'éteindre. Big Data Extensions vous permet de récupérer des défaillances de disque.
Serengeti prend en charge la récupération après un échange ou une défaillance de disque sur toutes les distributions Hadoop prises en charge. Les disques sont récupérés et démarrés l'un après l'autre pour éviter la perte temporaire de plusieurs nœuds à la fois. Les nouveaux disques correspondent au type de stockage et aux stratégies de placement des disques défaillants qu'ils remplacent.
La distribution MapR ne prend pas en charge la récupération d'une défaillance de disque à l'aide de la commande cluster fix.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds du cluster, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, de nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande cluster fix.
Le paramètre nodeGroup est facultatif.
cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name]

Effectuer la récupération d'une machine virtuelle de nœud de cluster

Vous pouvez récupérer des machines virtuelles de nœud de cluster qui ont été dissociées de leur identifiant d'objet géré (MOID) ou de leur pool de ressources et de leur nom de machine virtuelle.
Dans de rares situations, l'identifiant d'objet géré (MOID) d'une machine virtuelle de nœud de cluster peut changer. Cela peut se produire lorsqu'un hôte plante et se réenregistre sur vCenter Server. Lorsque BDE ne parvient pas à localiser une machine virtuelle de nœud dans vCenter Server par son MOID, l'application essaie d'abord de localiser le nœud par son pool de ressources et son nom de machine virtuelle. Si cela s'avère impossible, vous pouvez récupérer la machine virtuelle de nœud de cluster à l'aide de la commande
cluster recover.
Procédure
1 Accédez à l'Serengeti CLI.
80 VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2 Exécutez la commande cluster recover pour mettre à jour le cluster et récupérer la machine virtuelle
de nœud de cluster.
cluster recover
Suivant
Vous pouvez vérifier que la machine virtuelle de nœud de cluster a été récupérée avec succès.

Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client d'interface de ligne de commande Serengeti

Avant d'effectuer les opérations de sauvegarde et de restauration, ou d'autres tâches de maintenance, vous devez placer Big Data Extensions en mode maintenance.
Prérequis
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
n
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Procédure
1 Connectez-vous à Serengeti Management Server.
2 Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou vérifier l'état de maintenance.
serengeti-maintenance.sh on | off | status
Option Description
activé
désactivé
Statut
Active le mode maintenance. Lorsque vous entrez en mode maintenance, Big Data Extensions continue à exécuter les tâches déjà commencées, mais ne répond pas aux nouvelles requêtes.
Désactive le mode maintenance et remet Big Data Extensions dans son état de fonctionnement normal.
Affiche l'état de maintenance de Big Data Extensions.
n
L'état sécurisé indique que les opérations de sauvegarde et les autres tâches de maintenance peuvent être effectuées en toute sécurité dans votre déploiement Big Data Extensions.
n
L'état désactivé indique que le mode maintenance a été désactivé et que les tâches de maintenance telles que la sauvegarde et la restauration ne peuvent pas être effectuées en toute sécurité.
n
L'état activé signifie que Big Data Extensions est entré en mode maintenance, mais que les opérations de sauvegarde et de restauration ne peuvent pas encore être effectuées en toute sécurité. Vous devez attendre que le système renvoie le message d'état sécurisé.
Pour placer votre déploiement Big Data Extensions en mode maintenance, exécutez le script serengeti-
maintenance.sh avec l'option on.
serengeti-maintenance.sh on
VMware, Inc. 81
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3 Vérifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de manière répétée jusqu'à obtenir le message d'état du système sécurisé.
serengeti-maintenance.sh status safe
4 Effectuez les tâches de maintenance système souhaitées.
5 Une fois que vous avez terminé, faites repasser Big Data Extensions à son état de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
82 VMware, Inc.
Surveillance de l'environnement Big
Data Extensions 7
Vous pouvez surveiller l'état des clusters déployés sur Serengeti, y compris leurs banques de données, leurs réseaux et leurs pools de ressources à l'aide de l'interface de ligne de commande Serengeti. Vous pouvez également afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont également disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
n
Serengeti », page 83
« Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti »,
n
page 84
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
n
l'interface de ligne de commande Serengeti », page 84
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
n
de l'interface de ligne de commande Serengeti », page 84
« Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les banques de données avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les réseaux avec l'interface de ligne de commande Serengeti », page 86
n
« Afficher les pools de ressources avec l'interface de ligne de commandeSerengeti », page 86
n

Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions.
VMware, Inc.
83
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti

Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous utilisez la commande distro list pour afficher la liste des distributions Hadoop disponibles dans votre déploiement Serengeti. Lorsque vous créez des clusters, vous pouvez utiliser toute distribution Hadoop disponible.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande distro list.
Les distributions Hadoop disponibles sont affichées, ainsi que leurs packages.
Suivant
Avant d'utiliser une distribution, vérifiez qu'elle inclut les services que vous voulez déployer. S'il manque des services, ajoutez les packages appropriés à la distribution.

Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti

Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez.

Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti

Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster.
84 VMware, Inc.
Chapitre 7 Surveillance de l'environnement Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1 Accédez à l'interface de ligne de commande Serengeti.
2 Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique.

Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti

À partir de l'Serengeti CLI, vous pouvez afficher les clusters provisionnés qui sont dans le déploiement Serengeti.
Procédure
1 Accédez à l'Serengeti CLI.
2 Exécutez la commande cluster list.
cluster list
Cet exemple affiche un cluster spécifique en incluant le paramètre --name.
cluster list --name cluster_name
Cet exemple affiche des informations détaillées sur un cluster spécifique en incluant les paramètres --
name et --detail.
cluster list --name cluster_name –-detail

Afficher les banques de données avec l'interface de ligne de commande Serengeti

À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les banques de données qui sont dans le déploiement Serengeti.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande datastore list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
datastore list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les paramètres --name et --detail.
datastore list --name datastore_name --detail
VMware, Inc. 85
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Afficher les réseaux avec l'interface de ligne de commande Serengeti

À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les réseaux qui sont dans le déploiement Serengeti.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande network list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
network list --detail
Cet exemple affiche des informations détaillées sur un réseau spécifique en incluant les paramètres --
name et --detail.
network list --name network_name --detail

Afficher les pools de ressources avec l'interface de ligne de commande Serengeti

À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les pools de ressources qui sont dans le déploiement Serengeti.
Procédure
1 Accédez à l'interface de ligne de commandeSerengeti.
2 Exécutez la commande resourcepool list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
resourcepool list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les paramètres --name et --detail.
resourcepool list --name resourcepool_name –-detail
86 VMware, Inc.

Référence de spécification de cluster 8

Pour personnaliser vos clusters, vous devez savoir utiliser les fichiers de spécification de cluster Serengeti et définir les prérequis de cluster avec les différents attributs et objets. Après avoir créé vos fichiers de configuration, vous pouvez les convertir au format de fichier JSON.
Ce chapitre aborde les rubriques suivantes :
« Conditions requises de fichier de spécification de cluster », page 87
n
« Conditions requises de la définition de cluster », page 88
n
« Fichier de spécification de cluster annoté », page 88
n
« Définitions des attributs de spécification de cluster », page 91
n
« Attributs Hadoop de la liste blanche et de la liste noire », page 94
n
« Convertir les fichiers XML Hadoop en Serengetifichiers JSON », page 96
n

Conditions requises de fichier de spécification de cluster

Un fichier de spécification de cluster est un fichier texte avec les attributs de configuration fournis dans une structure au format JSON. Les fichiers de spécification de cluster doivent respecter les prérequis relatifs à la syntaxe, à l'utilisation des guillemets et aux commentaires.
VMware, Inc.
Pour analyser les fichiers de spécification de cluster, Serengeti utilise le processeur JSON Jackson. Pour
n
les obligations syntaxiques, telles que la stratégie de troncation des types « float », consultez la page wiki « Jackson JSON Processor ».
Encadrez toujours les valeurs numériques par des guillemets. Par exemple :
n
"mapred.tasktracker.reduce.tasks.maximum" : "2"
Les guillemets garantissent que les entiers sont correctement interprétés au lieu d'être convertis en nombres à virgule flottante double précision, ce qui peut entraîner des conséquences inattendues.
Vous ne pouvez inclure que des commentaires d'une seule ligne en utilisant le symbole dièse (#) pour
n
identifier le commentaire.
87
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions

Conditions requises de la définition de cluster

Les fichiers de spécification de cluster contiennent les définitions de configuration des clusters, telles que leurs rôles et groupes de nœuds. Les définitions de cluster doivent adhérer aux conditions requises relatives aux rôles de groupe de nœuds, aux rôles de cluster et aux nombres d'instance.
Une définition de cluster obéit aux conditions requises suivantes :
Les rôles de groupe de nœuds ne peuvent pas être vides. Vous pouvez déterminer les noms de rôle
n
valides pour votre distribution Hadoop à l'aide de la commande distro list.
Les rôles hadoop_namenode et hadoop_jobtracker doivent être configurés dans un seul groupe de
n
nœuds.
Dans les clusters Hadoop 2.0, tels que CDH4 ou Pivotal HD, le nombre d'instances peut être
n
supérieur à 1 pour créer un cluster HDFS HA ou Federation.
Sinon, le nombre total d'instances doit être égal à 1.
n
Les nombres d'instances de groupe de nœuds doivent être des nombres positifs.
n

Fichier de spécification de cluster annoté

Le fichier de spécification de cluster Serengeti définit les différents nœuds Hadoop et HBase ainsi que leurs ressources à utiliser par le cluster Big Data. Vous pouvez utiliser ce fichier de spécification de cluster annoté ainsi que les fichiers exemples du dossier /opt/serengeti/samples comme modèles à émuler lorsque vous créez vos clusters Big Data.
Le code suivant est celui d'un fichier de spécification de cluster classique. Pour les annotations du code, consultez Tableau 8-1.
1 { 2 "nodeGroups" : [ 3 { 4 "name": "master", 5 "roles": [ 6 "hadoop_namenode", 7 "hadoop_resourcemanager" 8 ], 9 "instanceNum": 1, 10 "instanceType": "LARGE", 11 "cpuNum": 2, 12 "memCapacityMB":4096, 13 "storage": { 14 "type": "SHARED", 15 "sizeGB": 20 16 }, 17 "haFlag":"on", 18 "rpNames": [ 19 "rp1" 20 ] 21 }, 22 { 23 "name": "data", 24 "roles": [ 25 "hadoop_datanode" 26 ], 27 "instanceNum": 3, 28 "instanceType": "MEDIUM",
88 VMware, Inc.
29 "cpuNum": 2, 30 "memCapacityMB":2048, 31 "storage": { 32 "type": "LOCAL", 33 "sizeGB": 50, 34 "dsNames4Data": ["DSLOCALSSD"], 35 "dsNames4System": ["DSNDFS"] 36 } 37 "placementPolicies": { 38 "instancePerHost": 1, 39 "groupRacks": { 40 "type": "ROUNDROBIN", 41 "racks": ["rack1", "rack2", "rack3"] 42 } 43 } 44 }, 45 { 46 "name": "compute", 47 "roles": [ 48 "hadoop_nodemanger" 49 ], 50 "instanceNum": 6, 51 "instanceType": "SMALL", 52 "cpuNum": 2, 53 "memCapacityMB":2048, 54 "storage": { 55 "type": "LOCAL", 56 "sizeGB": 10 57 } 58 "placementPolicies": { 59 "instancePerHost": 2, 60 "groupAssociations": [{ 61 "reference": "data", 62 "type": "STRICT" 63 }] 64 } 65 }, 66 { 67 "name": "client", 68 "roles": [ 69 "hadoop_client", 70 "hive", 71 "hive_server", 72 "pig" 73 ], 74 "instanceNum": 1, 75 "instanceType": "SMALL", 76 "memCapacityMB": 2048, 77 "storage": { 78 "type": "LOCAL", 79 "sizeGB": 10, 80 "dsNames": [“ds1”, “ds2”] 81 } 82 }
Chapitre 8 Référence de spécification de cluster
VMware, Inc. 89
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
83 ], 84 "configuration": { 85 } 86 }
Les éléments de définition de cluster sont spécifiés dans la table.
Tableau 81. Exemple d'annotation de spécification de cluster
Ligne(s) Attribut Valeur d'exemple Description
4 nom maître Nom du groupe de nœuds.
5-8 rôle hadoop_namenode,
hadoop_jobtracker
9 instanceNum 1 Nombre d'instances du groupe de nœuds.
10 instanceType GRANDE Type d'instance de groupe de nœuds.
11 cpuNum 2 Nombre de CPU par machine virtuelle.
12 memCapacityMB 4096 Taille de la RAM, en Mo, par machine virtuelle.
13-16 stockage Voir les lignes 14-15 des
attributs de stockage d'un groupe
14 type PARTAGÉ Type de stockage.
15 sizeGB 20 Taille du stockage.
17 haFlag activé Protection HA du groupe de nœuds.
Rôle du groupe de nœuds. hadoop_namenode et hadoop_jobtracker sont
déployés sur la machine virtuelle du groupe de nœuds.
Une seule machine virtuelle est créée pour le groupe.
Il est possible d'avoir plusieurs instances de
n
hadoop_tasktracker, hadoop_datanode, hadoop_client, pig et hive.
Pour les clusters HDFS1, vous ne pouvez
n
avoir qu'une seule instance de hadoop_namenode et hadoop_jobtracker.
Pour les clusters HDFS2, vous pouvez avoir
n
deux instances hadoop_namenode. Avec une distribution MapR, vous pouvez
n
configurer plusieurs instances de hadoop_jobtracker.
Les types d'instance sont des spécifications de machine virtuelle prédéfinies : elles correspondent à une combinaison du nombre de CPU, de la taille de la RAM et de la taille du stockage. Les valeurs prédéfinies peuvent être remplacées par le cpuNum, la memCapacityMB et les attributs de stockage du fichier de spécification du serveur Serengeti.
Cet attribut remplace le nombre de CPU virtuels de la spécification de machine virtuelle prédéfinie.
Cet attribut remplace la taille de la RAM de la spécification de machine virtuelle prédéfinie.
Configuration requise pour le stockage d'un nœud de groupes.
Le groupe de nœuds est déployé à l'aide d'un stockage partagé uniquement.
Chaque nœud du groupe de nœuds est déployé avec 20 Go d'espace disque disponible.
Le groupe de nœuds est déployé avec la protection HA vSphere.
90 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 81. Exemple d'annotation de spécification de cluster (suite)
Ligne(s) Attribut Valeur d'exemple Description
18-20 rpNames rp1 Pools de ressources sous lesquels les machines
virtuelles du groupe de nœuds sont déployées. Ces pools peuvent être un tableau de valeurs.
22-36 Définition du
groupe de nœuds pour le nœud de données
37-44 placementPolicies Voir l'exemple de code Contraintes de la stratégie d'emplacement du
45-57 Définition du
groupe de nœuds pour le nœud de calcul
58-65 placementPolicies Voir l'exemple de code Contraintes de la stratégie d'emplacement du
66-82 Définition du
groupe de nœuds pour le nœud client
83-86 configuration Vide dans l'exemple de
code
Voir les lignes 3-21, qui définissent les mêmes attributs pour le nœud master.
Sur les lignes 34-35, les disques de données sont placés sur les banques de données dsNames4Data et les disques système sur les banques de données dsNames4System.
groupe de nœuds de données. Vous avez besoin d'au moins trois hôtes ESXi,
car il y a trois instances et chaque instance doit impérativement se trouver sur son propre hôte. Le groupe est provisionné sur les hôtes sur les racks 1, 2 et 3 à l'aide d'un algorithme ROUNDROBIN.
Voir les lignes 4-16, qui définissent les mêmes attributs pour le nœud master.
groupe de nœuds de calcul. Vous avez besoin d'au moins trois hôtes ESXi
pour satisfaire aux exigences de l'instance. Le groupe de nœuds de calcul fait référence à un groupe de nœuds de données via un type STRICT. Les deux instances de calcul utilisent une instance de données sur l'hôte ESXi. L'association STRICT offre les meilleures performances.
Voir les définitions de groupe de nœuds précédentes.
Personnalisation de la configuration Hadoop.

Définitions des attributs de spécification de cluster

Les définitions des clusters incluent les attributs pour le cluster lui-même et pour chacun des groupes de nœuds.
Attributs extérieurs de spécification de cluster
Les attributs extérieurs de spécification de cluster s'appliquent au cluster comme un tout.
Tableau 82. Attributs extérieurs de spécification de cluster
Attribut Type Obligatoire/facultatif Description
nodeGroups objet Obligatoire Une ou plusieurs spécifications de groupe. Voir Tableau 8-3.
configuration objet Facultatif Paires clé/valeur de la configuration Hadoop personnalisable.
externalHDFS string Facultatif Valide seulement pour les clusters de calcul uniquement. URI de HDFS
externe.
VMware, Inc. 91
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Attributs et objets de groupes de nœuds de spécification de cluster.
Les attributs et objets de groupes de nœuds s'appliquent à un seul groupe de nœuds d'un cluster.
Tableau 83. Attributs et objets de groupes de nœuds de spécification de cluster
Attribut Type Obligatoire/facultatif Description
nom string Obligatoire Nom du groupe de nœuds défini par
l'utilisateur.
rôles liste de chaînes Obligatoire Liste des services ou packages logiciels à
installer sur la machine virtuelle. Les valeurs doivent correspondre aux rôles affichés par la commande distro list.
instanceNum integer Obligatoire Nombre de machines virtuelles du
groupe de nœuds :
Entier positif.
n
Généralement, vous pouvez avoir
n
plusieurs instances pour
hadoop_tasktracker, hadoop_datanode, hadoop_client, pig, et hive.
Pour les clusters HDFS1, vous ne
n
pouvez avoir qu'une seule instance de hadoop_namenode et hadoop_jobtracker.
Pour les clusters HDFS2, vous
n
pouvez avoir deux instances hadoop_namenode.
Avec une distribution MapR, vous
n
pouvez configurer plusieurs instances de hadoop_jobtracker.
instanceType string Facultatif Taille des machines virtuelles du groupe
de nœuds, exprimée sous le nom d'un modèle de machine virtuelle prédéfini. Reportez-vous à la section Tableau 8-4.
PETITE
n
MOYENNNE
n
GRANDE
n
EXTRA_LARGE
n
Si vous spécifiez les attributs cpuNum, memCapacityMB ou sizeGB, ils
remplacent la valeur correspondante de votre modèle de machine virtuelle sélectionnée pour le groupe de nœuds applicable.
cpuNum integer Facultatif Nombre de CPU par machine virtuelle. Si
la valeur de haFlag est FT, la valeur de cpuNum doit être égale à 1.
memCapacityMB integer Facultatif Taille de la RAM, en Mo, par machine
virtuelle. REMARQUE Lors de l'utilisation de
MapR 3.1, vous devez spécifier un minimum de 5 120 Mo de capacité mémoire pour les nœuds zookeeper, worker et client.
92 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 83. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
Attribut Type Obligatoire/facultatif Description
swapRatio flottant Facultatif Définit le rapport entre la taille du disque
latencySensitivity string Facultatif Vous pouvez spécifier une valeur
reservedMemRatio integer Facultatif Vous pouvez spécifier 0 ou 1 pour définir
reservedCpuRatio integer Facultatif Vous pouvez spécifier 0 ou 1 pour définir
Stockage objet Facultatif Paramètres de stockage.
type string Facultatif Type de stockage :
sizeGB integer Facultatif Taille du stockage des données. Doit être
diskNum integer Facultatif Spécifie le nombre de disques à utiliser
dsNames liste de chaînes Facultatif Tableau de banques de données que le
dnNames4Data liste de chaînes Facultatif Tableau de banques de données que le
dsNames4System liste de chaînes Facultatif Tableau de banques de données que le
rpNames liste de chaînes Facultatif Tableau de pools de ressources que le
de permutation du système d'exploitation et la taille de la mémoire.
Par exemple, pour une mémoire de 4 Go (4 096 Mo) et une valeur swapRatio de 1; la taille du disque de permutation sera de 4 Go. En spécifiant une valeur swapRatio de 2, la taille du disque de permutation sera de 8 Go.
Vous pouvez également spécifier une valeur flottante pour l'attribut swapRatio. En spécifiant une valeur de 0,5 avec une mémoire de 4 Go, la taille du disque de permutation sera de 2 Go.
FAIBLE, NORMAL, MOYEN ou ÉLEVÉ pour le paramètre de sensibilité de latence de la machine virtuelle dans vCenter Server afin d'optimiser les performances du cluster.
Lorsque vous déployez un cluster HBase, vous pouvez optimiser les performances HBase en définissant le paramètre latencySensitivity sur ÉLEVÉ. Vous devez alors définir le paramètre reservedMemRatio (voir ci-dessous) sur 1.
la proportion de mémoire réservée. Lorsque vous déployez un cluster HBase,
vous pouvez optimiser les performances HBase en définissant le paramètre sur 1. Vous devez alors définir le paramètre latencySensitivity (voir ci-dessus) sur ÉLEVÉ.
la proportion de CPU réservé.
LOCAL. Pour le stockage local
n
PARTAGÉ. Pour le stockage partagé.
n
un nombre entier positif
pour chaque groupe de nœuds.
groupe de nœuds peut utiliser.
groupe de nœuds de données peut utiliser.
système peut utiliser.
groupe de nœuds peut utiliser.
VMware, Inc. 93
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 83. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
Attribut Type Obligatoire/facultatif Description
haFlag string Facultatif Par défaut, les nœuds NameNode et
placementPolicies objet Facultatif Jusqu'à trois contraintes facultatives :
Tailles des machines virtuelles prédéfinies Serengeti
Serengeti fournit des tailles de machines virtuelles prédéfinies à utiliser pour définir la taille de machines virtuelles dans un groupe de nœuds de cluster.
JobTracker sont protégés par vSphere HA.
activé. Protégez le nœud avec
n
vSphere HA. pieds. Protégez le nœud avec
n
vSphere FT. désactivée. N'utilisez pas vSphere
n
HA ou vSphere FT.
instancePerHost
n
groupRacks
n
groupAssociations
n
Tableau 84. Tailles des machines virtuelles prédéfinies Serengeti
PETITE MOYENNNE GRANDE EXTRA_LARGE
Nombre de CPU par machine virtuelle
RAM, en Go 3,75 7,5 15 30
Taille du disque de données master Hadoop, en Go
Taille du disque de données worker Hadoop, en Go
Taille du disque de données client Hadoop, en Go
Taille du disque de données zookeeper, en Go
1 2 4 8
25 50 100 200
50 100 200 400
50 100 200 400
20 40 80 120

Attributs Hadoop de la liste blanche et de la liste noire

Les attributs de la liste blanche sont les attributs Apache Hadoop que vous pouvez configurer depuisSerengeti avec la commande cluster config. La majorité des attributs Apache Hadoop sont sur la liste blanche. Cependant, il existe quelques attributs Apache Hadoop de la liste noire, que vous ne pouvez pas configurer depuis Serengeti.
Si vous utilisez un attribut du fichier de spécification de cluster qui n'est ni un attribut sur liste blanche ni un attribut sur liste noire, et que vous exécutez la commande cluster config, un avertissement s'affiche et vous devez répondre oui pour continuer ou non pour annuler.
Si votre cluster inclut un NameNode or JobTracker, Serengeti configure les attributs fs.default.name et
dfs.http.address. Vous pouvez remplacer ces attributs en les définissant dans votre spécification de cluster.
94 VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 85. Liste blanche des attributs de configuration
Fichier Attributs
core-site.xml Tous les attributs de configuration core-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/core- default.html.
Excluez les attributs définis dans la liste noire.
hdfs-site.xml Tous les attributs de configuration hdfs-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/hdfs- default.html.
Excluez les attributs définis dans la liste noire.
mapred-site.xml Tous les attributs de configuration mapred-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/mapred- default.html.
Excluez les attributs définis dans la liste noire.
hadoop-env.sh
log4j.properties
fair­scheduler.xml
capacity­scheduler.xml
mapred-queue­acls.xml
JAVA_HOME PATH HADOOP_CLASSPATH HADOOP_HEAPSIZE HADOOP_NAMENODE_OPTS HADOOP_DATANODE_OPTS HADOOP_SECONDARYNAMENODE_OPTS HADOOP_JOBTRACKER_OPTS HADOOP_TASKTRACKER_OPTS HADOOP_LOG_DIR
hadoop.root.logger hadoop.security.logger log4j.appender.DRFA.MaxBackupIndex log4j.appender.RFA.MaxBackupIndex log4j.appender.RFA.MaxFileSize
texte Tous les attributs de configuration fair_scheduler listés sur la page Web de la documentation
Apache Hadoop 2.x qui peuvent être utilisés à l'intérieur du champ de texte. Par exemple, http://hadoop.apache.org/docs/branch_name/fair_scheduler.html.
Excluez les attributs définis dans la liste noire.
Tous les attributs de configuration capacity_scheduler listés sur la page Web de la documentation Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/capacity_scheduler.html.
Excluez les attributs définis dans la liste noire.
Tous les attributs de configuration mapred-queue-acls listés sur la page Web Apache Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/cluster_setup.html#Configuring+the +Hadoop+Daemons.
Excluez les attributs définis dans la liste noire.
VMware, Inc. 95
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 86. Liste noire des attributs de configuration
Fichier Attributs
core-site.xml
hdfs-site.xml
mapred-site.xml
hadoop-env.sh
log4j.properties
fair-scheduler.xml
capacity-scheduler.xml
mapred-queue-acls.xml
net.topology.impl net.topology.nodegroup.aware dfs.block.replicator.classname topology.script.file.name
dfs.http.address dfs.name.dir dfs.data.dir
mapred.job.tracker mapred.local.dir mapred.task.cache.levels mapred.jobtracker.jobSchedulable mapred.jobtracker.nodegroup.aware
HADOOP_HOME HADOOP_COMMON_HOME HADOOP_MAPRED_HOME HADOOP_HDFS_HOME HADOOP_CONF_DIR HADOOP_PID_DIR
Aucune
Aucune
Aucune
Aucune

Convertir les fichiers XML Hadoop en Serengeti fichiers JSON

Si vous avez défini un grand nombre d'attributs dans vos fichiers de configuration Hadoop, vous pouvez convertir ces informations de configuration au format JSON que Serengeti peut utiliser.
Procédure
1 Copiez le répertoire $HADOOP_HOME/conf/ de votre cluster Hadoop vers le serveur de gestion Serengeti.
2 Ouvrez un shell de commande, tel que Bash ou PuTTY, connectez-vous au serveur de gestion Serengeti
et exécutez le script de conversion Ruby convert-hadoop-conf.rb.
convert-hadoop-conf.rb path_to_hadoop_conf
Les attributs de configuration Hadoop convertis, au format JSON, s'affichent.
3 Ouvrez le fichier de spécification de cluster pour le modifier.
4 Remplacez la configuration de niveau cluster ou les éléments de configuration de niveau groupe par la
sortie générée par le script de conversion Ruby convert-hadoop-conf.rb.
Suivant
Accédez à l'interface de ligne de commande Serengeti et utilisez le nouveau fichier de spécification.
Pour appliquer la nouvelle configuration à un cluster, exécutez la commande cluster config. Incluez le
n
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
Pour créer un cluster avec la nouvelle configuration, exécutez la commande cluster create. Incluez le
n
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
96 VMware, Inc.
Référence des commandes de l'interface de ligne de commande
Serengeti 9
Cette section fournit la description et la syntaxe requise de chaque commande de l'interface de ligne de commande Serengeti.
Ce chapitre aborde les rubriques suivantes :
« Commandes appmanager », page 97
n
« Commandes cluster », page 99
n
« Commande connect », page 106
n
« Commandes datastore », page 107
n
« Commande disconnect », page 107
n
« Commande distro list », page 108
n
« Commandes mgmtvmcfg », page 108
n
« Commandes network », page 109
n
« Commandes resourcepool », page 110
n
« Commandes template », page 111
n
« Commandes topology », page 111
n
« Commandes usermgmt », page 112
n

Commandes appmanager

Les commandes appmanager {*} vous permettent d'ajouter des gestionnaires d'applications, de les supprimer et de les gérer.

Commande appmanager add

La commande appmanager add vous permet d'ajouter un gestionnaire d'applications autre que celui par défaut à votre environnement. Vous pouvez spécifier un gestionnaire d'applications Cloudera Manager ou Ambari. La commande appmanager add lit le nom d'utilisateur et le mot de passe en mode interactif. Si vous spécifiez https, la commande vous invite à saisir le chemin d'accès du certificat.
Paramètre Obligatoire/facultatif Description
--name
application_manager_name
--description description
Obligatoire Nom du gestionnaire d'applications
Facultatif
VMware, Inc. 97
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Paramètre Obligatoire/facultatif Description
--type
[ClouderaManager/Ambari]
--url <http[s]://server:port>
Obligatoire Nom du type de gestionnaire d'applications à utiliser, Cloudera
Manager ou Ambari
Obligatoire URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ; invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe.

Commande appmanager delete

Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin.
Le gestionnaire d'applications à supprimer ne doit pas contenir de clusters, sans quoi le processus échoue.
appmanager delete --name application_manager_name
Paramètre Obligatoire ou facultatif Description
--name application_manager_name
Obligatoire Nom du gestionnaire d'applications

Commande appmanager modify

Avec la commandeappmanager modify, vous pouvez modifier les informations d'un gestionnaire d'applications : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur.
IMPORTANT Commettre une erreur lorsque vous modifiez un gestionnaire d'applications peut avoir de graves conséquences. Par exemple, vous modifiez l'URL de Cloudera Manager en l'URL d'un nouveau gestionnaire d'applications. Si vous créez des clusters Big Data Extensionsavec l'instance de l'ancien Cloudera Manager, il devient impossible de gérer le cluster Cloudera Manager précédent. De plus, le cluster Cloudera Manager n'est pas accessible à l'instance du nouveau gestionnaire d'applications.
appmanager modify --name application_manager_name
Obligatoire
Paramètre
--name
application_manager_name
--url http[s]://server:port
--changeAccount Facultatif Modifie le compte de connexion et le mot de passe du gestionnaire
--changeCertificate Facultatif Modifie le certificat SSL du gestionnaire d'applications. Ce paramètre ne
ou facultatif Description
Obligatoire Nom du gestionnaire d'applications
Facultatif URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ; invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Vous pouvez utiliser http ou https.
d'applications.
s'applique qu'aux gestionnaires d'applications dont l'URL commence par https.
98 VMware, Inc.

Commande appmanager list

La commande appmanager list retourne une liste de tous les gestionnaires d'applications disponibles, y compris le gestionnaire d'applications par défaut.
Paramètre Obligatoire/facultatif Description
--name application_manager_name
--distro distribution_name
--configurations | --roles

Commandes cluster

Les commandes cluster {*} vous permettent de vous connecter aux clusters, de créer et de supprimer des clusters, d'arrêter et de démarrer des clusters, et d'exécuter des opérations de gestion des clusters.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Facultatif Nom du gestionnaire d'applications.
Facultatif Nom d'une distribution spécifique. Si vous n'incluez pas la
variable distribution_name, la commande retourne toutes les distributions Hadoop prises en charge par le gestionnaire d'applications.
Facultatif Rôles ou configurations Hadoop d'un gestionnaire
d'applications et d'une distribution spécifiques. N'utilisez pas de rôles non pris en charge pour créer un cluster.

Commande cluster config

La commande cluster config vous permet de modifier la configuration d'un cluster Hadoop ou HBase existant, que le cluster soit configuré selon les valeurs Serengeti par défaut ou que vous ayez personnalisé le cluster.
REMARQUE La commande cluster config ne peut être utilisée qu'avec les clusters créés à l'aide du gestionnaire d'applications par défaut. Pour ces clusters créés avec Ambari ou Cloudera Manager, toute modification de la configuration d'un cluster doit s'effectuer à partir du gestionnaire d'applications. De même, les nouveaux services et les nouvelles configurations modifiés dans le gestionnaire d'applications externe ne peuvent pas être synchronisés à partir de Big Data Extensions.
Vous pouvez utiliser la commande cluster config avec la commande cluster export pour rétablir en mode normal les services de cluster et la configuration Hadoop originale dans les cas suivants :
Un service tel que NameNode, JobTracker, DataNode ou TaskTracker s'arrête.
n
Vous avez modifié manuellement la configuration Hadoop d'un ou de plusieurs nœuds d'un cluster.
n
Exécutez la commande cluster export, puis la commande cluster config. Incluez le nouveau fichier de spécification de cluster que vous venez d'exporter.
Si le cluster HDFS externe a été créé par Big Data Extensions, l'utilisateur doit se servir de la commande
clusterconfig pour ajouter la topologie du cluster HBase au cluster HDFS.
L'exemple suivant décrit le fichier de spécification à ajouter à la topologie :
"configuration" : { "hadoop" : { "topology.data": { "text": "10.1.1.1 /rack4,10.2.2.2 /rack4" } } }
Paramètre Obligatoire/facultatif Description
--name cluster_name_in_Serengeti
--specFile spec_file_path
VMware, Inc. 99
Obligatoire Nom du cluster Hadoop à configurer.
Facultatif Nom de fichier de la spécification du cluster Hadoop
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Paramètre Obligatoire/facultatif Description
--yes
--skipConfigValidation
Facultatif Répondez O à la confirmation O/N. En cas de non-
Facultatif Ignorez la validation de la configuration du cluster.

Commande cluster create

Vous utilisez la commande cluster create pour créer un cluster Hadoop ou HBase.
Si la spécification du cluster n'inclut pas les nœuds requis, par exemple un nœud master, le Serengeti Management Server crée le cluster conformément à la configuration de cluster par défaut que déploie le Serengeti Management Server.
Obligatoire ou
Paramètre
--name cluster_name_in_Serengeti
--networkName management_network_name
--adminGroupName admin_group_name
--userGroupNameuser_group_name
--appmanagerappmanager_name
--type cluster_type
--password
--specFile spec_file_path
--distro Hadoop_distro_name
--dsNames datastore_names
facultatif Description
Obligatoire. Nom de cluster.
Obligatoire. Réseau à utiliser pour la gestion du trafic dans les
Facultatif Groupe administratif à utiliser pour ce cluster comme
Facultatif Groupe d'utilisateurs à utiliser pour ce cluster comme
Facultatif. Nom d'un gestionnaire d'applications autre que le
Facultatif. Type de cluster :
Facultatif. Ne pas utiliser
si vous utilisez le paramètre -­resume.
Facultatif. Nom de fichier de la spécification du cluster. Pour les
Facultatif. Distribution Hadoop pour le cluster.
Facultatif. Banque de données à utiliser pour déployer le cluster
spécification, entrez manuellement o ou n.
clusters Hadoop. Si vous omettez l'un des paramètres réseau facultatifs,
le trafic associé à ce paramètre est acheminé sur le réseau de gestion spécifié à l'aide du paramètre-­networkName.
défini dans Active Directory ou LDAP.
défini dans Active Directory ou LDAP.
gestionnaire par défaut pour gérer vos clusters.
Hadoop (par défaut)
n
HBase
n
Mot de passe personnalisé pour tous les nœuds du cluster.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
clusters de calcul uniquement, vous devez réviser le fichier de spécification pour qu'il pointe sur un HDFS externe.
Hadoop dans Serengeti. Plusieurs banques de données peuvent être utilisées, séparées par une virgule.
Par défaut, toutes les banques de données disponibles sont utilisées.
Lorsque vous spécifiez le paramètre --dsNames, le cluster peut uniquement utiliser les banques de données que vous fournissez dans cette commande.
100 VMware, Inc.
Loading...