
BOOKS - Apache Airflow и конвейеры обработки данных

Apache Airflow и конвейеры обработки данных
Author: Харенслак Б., де Руйтер Дж.
Year: 2021 (2022)
Format: PDF
File size: 17 мб
Language: RU

Year: 2021 (2022)
Format: PDF
File size: 17 мб
Language: RU

The book covers topics such as ETL (Extract, Transform, Load), data integration, data transformation, data quality, and data governance, and provides practical examples and case studies to illustrate the concepts discussed. Book Description: Apache Airflow и конвейеры обработки данных (Apache Airflow and Data Processing Pipelines) is a comprehensive guide to using Apache Airflow in data processing pipelines. This book provides readers with a detailed understanding of how to design, implement, and manage data processing workflows using this powerful tool. The book covers a range of topics, including ETL (Extract, Transform, Load), data integration, data transformation, data quality, and data governance, and offers practical examples and case studies to illustrate the concepts discussed. The book begins by introducing the concept of data processing pipelines and the role that Apache Airflow plays in managing these workflows. It then delves into the details of how to create and manage Airflow tasks, including creating DAGs (Directed Acyclic Graphs), defining task dependencies, and using sensors and operators to handle errors and exceptions. The book also covers the use of Airflow's built-in sensors and operators, as well as how to create custom sensors and operators to meet specific use cases.
Книга охватывает такие темы, как ETL (извлечение, преобразование, загрузка), интеграция данных, преобразование данных, качество данных и управление данными, а также содержит практические примеры и тематические исследования, иллюстрирующие обсуждаемые концепции. Апачский и конвейеры обработки данных Потока воздуха (апачские Трубопроводы Потока воздуха и Обработки данных) является подробным руководством по использованию апачского Потока воздуха в трубопроводах обработки данных. Эта книга дает читателям подробное понимание того, как проектировать, внедрять и управлять рабочими процессами обработки данных с помощью этого мощного инструмента. Книга охватывает ряд тем, включая ETL (Extract, Transform, Load), интеграцию данных, преобразование данных, качество данных и управление данными, а также предлагает практические примеры и тематические исследования для иллюстрации обсуждаемых концепций. Книга начинается с введения концепции конвейеров обработки данных и роли, которую Apache Airflow играет в управлении этими рабочими процессами. Затем в нем подробно рассматриваются способы создания задач Airflow и управления ими, включая создание групп обеспечения доступности баз данных (направленных ациклических графов), определение зависимостей задач, а также использование датчиков и операторов для обработки ошибок и исключений. В книге также рассказывается об использовании встроенных датчиков и операторов Airflow, а также о том, как создавать пользовательские датчики и операторов для удовлетворения конкретных сценариев использования.
''
