Программа курса Интеграция Hadoop и NoSQL
Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные компоненты системы
Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности
Тюнинг JOIN операций
Сценарии использования
Cloudera Impala – OLAP аналитика данных в MPP Hadoop
Особенности решения
Интеграция с Hive и HBase
Форматы файлов для Cloudera Impala (Parquet, ORC)
Особенности JOIN-операций
Сценарии использования
Spark SQL
Возможности фреймворка и предоставляемые API
Сложные преобразования и агрегация с использованием Spark SQL
Интеграция с Hive
Сценарии использования
NoSQL в Hadoop
Спектр возможностей NoSQL в экосистеме Hadoop
Apache HBase – для real-time доступа на чтение и запись
Архитектура решения, концепция CRUD,
Проектирование базы данных, выбор column family
Сценарии использования HBase
Использование Apache Phoenix для HBase
Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
Концепция MPP и её реализация в Greenplum/ArenadataDB.
Загрузка и распределение данных. Сегментирование таблиц. Индексация
Внешние таблицы, реплицированные таблицы, consistent hashing
Оптимизация запросов, JOIN
Best practices
Сценарии использования
OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts
Особенности реализации
Шардирование, партиционирование, индексация
Сценарии использования
Описание курса https://www.bigdataschool.ru/bigdata/nosql-hadoop-course.html
Организатор: BigDataSchool
Наша компания «Школа Больших Данных» предлагаем уникальные практические курсы по Big Data (большие данные) а также материалы, новости, документы по следующим направлениям: Большие данные, Data Mining, Internet of Things, Industrial Internet of Things, цифровая трансформация, компоненты экосистемы Hadoop, Apache Spark,Kafka, NiFi, AirFlow,HBase, NoSQL, построение распределенных кластерных систем хранения больших данных и озер данных (Data Lakes) на платформах Cloudera Distributed Hadoop, Аренадата Hadoop, HortonWorks Data Platform и многое другое.