HADM: Администрирование кластера Hadoop | DevsDay.ru

HADM: Администрирование кластера Hadoop

Зарегистрироваться на событие



5 дней авторизованного практического обучения администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Apache Ambari на платформе  отечественного дистрибутива с открытым кодом Arenadata Hadoop;

  • безопасность Kerberos;
  • мониторинг, репликация и резервное копирование;
  • взаимодействие с компонентами экосистемы HadoopSparkHive/TezsqoopHDFSMapReduceHBaseZookeeper, Ooozie.

 

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива  Arenadata Hadoop .

 

Предварительный уровень подготовки:

  • Опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность5 дней, 40 академических часов.

 

Arenadata Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по:

  • планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop,
  • мониторингу и оптимизации производительности системы,
  • резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент,
  • настройке безопасности системы Kerberos  на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.

 

 

Программа курса

  1. Введение в Big Data и администрированию кластера Hadoop

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeData NodeYARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXTAVROORCParquetSequence файлы
    • Импорт(загрузка) данных на HDFS
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed HadoopMapR, Arenadata Hadoop): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость HadoopFederated NameNodeHadoop в облаке.
    • Сравнение Cloud решений для HadoopAmazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
    • Автоматическая установка.
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. Управление кластером Hadoop с использованием Apache Ambari
    • Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
  10. Безопасность Hadoop
    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoopApache RangerApache AtlasApache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices HortonWorks / Arenadata Hadoop.
  11. Мониторинг и администрирование кластера Hadoop
    • Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: ZabbixJMX.
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop
    • Графический интерфейс сервиса Zeppelin.
    • Введение Apache Pig.
    • Введение Apache Zookeeper
    • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
    • Введение в Apache sqoop — установка и выполнение базовых операций.
    • Введение в Apache Flume — установка и выполнение базовых операций.
    • Введение в Apache Spark — установка и выполнение базовых операций.
    • Обзор и назначение компонент: Apache KafkaApache HBaseApache NiFiApache FlinkApache Zookeeper.

 

Примерный список практических занятий курса по Администрированию кластера Hadoop:

  • Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
  • Установка и выполнение базовых операций в Apache HiveApache sqoopApache FlumeApache Spark
  • Выполнение задач в веб-интерфейсе Zeppelin
  • Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
  • Настройка высокой доступности Name Node (опционально).

 

Примечание:

  • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
  • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Зарегистрироваться на событие


События в IT Москва


5 дней авторизованного практического обучения администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Apache Ambari на платформе  отечественного дистрибутива с открытым кодом Arenadata Hadoop; безопасность Kerberos; мониторинг, репликация и резервное копирование; взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, Ooozie.   Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива  Arenadata Hadoop .   Предварительный уровень подготовки: Опыт работы в Unix, опыт работы с текстовым редактором vi (желателен) Продолжительность: 5 дней, 40 академических часов.   Arenadata Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по: планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop, мониторингу и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройке безопасности системы Kerberos  на базе Hadoop. Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.     Программа курса Введение в Big Data и администрированию кластера Hadoop Что такое Big Data. Понимание проблемы Big Data Эволюция систем распределенных вычислений Hadoop Принципы формирование pipelines и Data Lake Архитектура Apache Hadoop Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис Планировщик HDFS Отказоустойчивость и высокая доступность Hadoop Distributed File System Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS Дисковые квоты Поддержка компрессии Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы Импорт(загрузка) данных на HDFS Map Reduce Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2 Ограничения и параметры MapReduce и YARN Управление запуском пользовательских задач (jobs) под MapReduce Дизайн кластера Hadoop Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения. Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR. Интеграция с другими решениями: streaming (DataFlow), NoSQL Установка кластера Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке. Автоматическая установка. Установка и настройка кластера Hadoop в изолированном окружении (offline). Операции обслуживания кластера Hadoop Дисковая подсистема Квоты Остановка, запуск, перезапуск Управление узлами Сетевая топология Управление обновлениями и создание локального репозитория. Оптимизация и управление ресурсами Поиск узких мест. Производительность Файловая система Data Node Сетевая производительность Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF. Управление кластером Hadoop с использованием Apache Ambari Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari. Безопасность Hadoop Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoop: Apache Ranger, Apache Atlas, Apache Knox. Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа. Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA). Best practices HortonWorks / Arenadata Hadoop. Мониторинг и администрирование кластера Hadoop Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX. Troubleshooting Data Node Name Node Восстановление Name Node Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop Графический интерфейс сервиса Zeppelin. Введение Apache Pig. Введение Apache Zookeeper Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez. Введение в Apache sqoop — установка и выполнение базовых операций. Введение в Apache Flume — установка и выполнение базовых операций. Введение в Apache Spark — установка и выполнение базовых операций. Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.   Примерный список практических занятий курса по Администрированию кластера Hadoop: Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari Базовые операции с кластером Hadoop и файловые операции HDFS. Управление ресурсами и запуском задач с использованием YARN MapReduce. Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.) Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark Выполнение задач в веб-интерфейсе Zeppelin Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально) Настройка высокой доступности Name Node (опционально).   Примечание: Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу) Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
2020-09-28T00:00:00.0000000
2020-10-02T00:00:00.0000000
HADM: Администрирование кластера Hadoop
?.Trim()
HADM: Администрирование кластера Hadoop
Москва и МО, г. Москва. улица Илимская дом 5 К/2