
BOOKS - Apache Hudi The Definitive Guide Building Robust, Open, and High-Performing D...

Apache Hudi The Definitive Guide Building Robust, Open, and High-Performing Data Lakehouses (Early Release)
Author: Shiyan Xu, Prashant Wason, Bhavani Sudha Saktheeswaran, Rebecca Bilbro
Year: 2024-09-24
Format: PDF | EPUB | MOBI
File size: 10.1 MB
Language: ENG

Year: 2024-09-24
Format: PDF | EPUB | MOBI
File size: 10.1 MB
Language: ENG

The book "Apache Hudi The Definitive Guide Building Robust Open and High-Performing Data Lakehouses Early Release" is a comprehensive guide to building robust and high-performing data lakehouses using Apache Hudi. The book covers the entire process of developing a data lakehouse, from planning and designing to implementing and maintaining, providing readers with a thorough understanding of the technology and its applications. The book begins by highlighting the importance of data lakehouses in today's data-driven world, where vast amounts of data are being generated at an unprecedented rate. It emphasizes the need for organizations to have a robust and scalable infrastructure to store, process, and analyze this data, and how Apache Hudi can help achieve this goal. The book then delves into the fundamentals of Apache Hudi, explaining its architecture, features, and capabilities, as well as its advantages over other data storage solutions. The next section of the book focuses on planning and designing a data lakehouse, covering topics such as data ingestion, data transformation, data storage, and data governance. This section provides readers with a solid foundation in the principles of data lakehouse design and prepares them for the implementation phase. The implementation phase is covered in detail, with step-by-step instructions on how to set up and configure Apache Hudi, including configuration options, performance tuning, and best practices.
Книга «Apache Hudi The Definitive Guide Building Robust Open and High-Performing Data Lakehouses Early Release» - это всеобъемлющее руководство по созданию надежных и высокопроизводительных хранилищ данных с помощью Apache Hudi. Книга охватывает весь процесс разработки хранилища данных, от планирования и проектирования до внедрения и обслуживания, предоставляя читателям полное понимание технологии и ее приложений. Книга начинается с того, что подчеркивается важность хранилищ данных в современном мире, управляемом данными, где огромные объемы данных генерируются с беспрецедентной скоростью. В нем подчеркивается необходимость наличия у организаций надежной и масштабируемой инфраструктуры для хранения, обработки и анализа этих данных, а также то, как Apache Hudi может помочь в достижении этой цели. Затем книга углубляется в основы Apache Hudi, объясняя его архитектуру, особенности и возможности, а также его преимущества перед другими решениями для хранения данных. Следующий раздел книги посвящен планированию и проектированию хранилища данных, охватывая такие темы, как прием данных, преобразование данных, хранение данных и управление данными. Этот раздел предоставляет читателям прочную основу в принципах проектирования хранилища данных и готовит их к фазе внедрения. Фаза внедрения подробно описана в пошаговых инструкциях по настройке и конфигурированию Apache Hudi, включая параметры конфигурации, настройку производительности и рекомендации.
''
