
BOOKS - PROGRAMMING - Data Algorithms with Spark (Sixth Early Release)

Data Algorithms with Spark (Sixth Early Release)
Author: Mahmoud Parsian
Year: 2022-01-20
Format: EPUB/PDF CONV.
File size: 18.2 MB
Language: ENG

Year: 2022-01-20
Format: EPUB/PDF CONV.
File size: 18.2 MB
Language: ENG

Python and R. The book covers the basics of Spark SQL and DataFrames, Spark Streaming, GraphX, Spark MLlib and SparkR. It also discusses the integration of Spark with Hadoop, Kafka, Hive and other big data tools. The book will help you master the fundamental concepts of Apache Spark and its ecosystem, and prepare you for more advanced topics such as machine learning, graph processing, and stream processing. By the end of the book you will have developed a strong foundation in Apache Spark and be able to apply it to real-world problems. ' Please note that I am not asking for a summary of the book but rather a detailed description of the plot or storyline of the book. Book Data Algorithms with Spark Sixth Early Release As humanity stands at the precipice of a new technological revolution, the need for a personal paradigm for perceiving the development of modern knowledge has never been more urgent. In a world where technology is advancing at an unprecedented rate, it can be difficult to keep up with the latest developments and understand their impact on our lives. This is especially true when it comes to the field of big data analytics, where Apache Spark has become a crucial tool for data engineers and data scientists. In this book, we explore the process of developing practical algorithms and examples for this cluster computing framework using PySpark, Python, and R, and how it can be used to integrate with other big data tools like Hadoop, Kafka, and Hive. The story begins with an introduction to Spark SQL and DataFrames, which provide a powerful and expressive way to query and manipulate large datasets. As we delve deeper into the world of Spark, we encounter Spark Streaming, which allows for real-time processing of streaming data from various sources. GraphX, a library that provides high-performance graph processing, is also introduced, as well as Spark MLlib, a machine learning library that enables us to build predictive models.
Python and R.В книге освещены основы Spark SQL и DataFrames, Spark Streaming, GraphX, Spark MLlib и SparkR.Ит также обсуждается интеграция Spark с Hadoop, Kafka, Hive и другими инструментами для работы с большими данными. Книга поможет освоить фундаментальные концепции Apache Spark и его экосистемы, а также подготовить к более продвинутым темам, таким как машинное обучение, обработка графов и потоковая обработка. К концу книги вы разработаете прочную основу в Apache Spark и сможете применить ее к реальным проблемам ". Обратите внимание, что я не прошу резюме книги, а скорее подробное описание сюжета или сюжетной линии книги. Название книги: Алгоритмы данных с Spark xth Early Release По мере того, как человечество стоит на пороге новой технологической революции, потребность в личной парадигме восприятия развития современных знаний никогда не была столь актуальной. В мире, где технологии развиваются с беспрецедентной скоростью, бывает трудно идти в ногу с последними разработками и понимать их влияние на нашу жизнь. Это особенно актуально, когда речь идет об области аналитики больших данных, где Apache Spark стал важнейшим инструментом для data-инженеров и data-ученых. В этой книге мы рассмотрим процесс разработки практических алгоритмов и примеров для этой инфраструктуры кластерных вычислений с использованием PySpark, Python, и R, и как его можно использовать для интеграции с другими инструментами больших данных, такими как Hadoop, Kafka и Hive.История начинается с введения в Spark SQL и DataFrames, которые обеспечивают мощный и выразительный способ запроса и манипулирования большими наборами данных. По мере того, как мы углубляемся в мир Spark, мы сталкиваемся с Spark Streaming, который позволяет в режиме реального времени обрабатывать потоковые данные из различных источников. Также представлена GraphX - библиотека, обеспечивающая высокопроизводительную обработку графов, а также Spark MLlib - библиотека машинного обучения, позволяющая строить прогностические модели.
Python and R.L'ouvrage met en lumière les bases de Spark SQL et DataFrames, Spark Streaming, GraphX, Spark MLbou et SparkR.Ill discute également de l'intégration de Spark avec Hadoop, Kafka, Hive et d'autres outils pour travailler avec des données volumineuses. livre vous aidera à maîtriser les concepts fondamentaux d'Apache Spark et de son écosystème, ainsi qu'à vous préparer à des sujets plus avancés tels que l'apprentissage automatique, le traitement de graphe et le streaming. À la fin du livre, vous développerez une base solide dans Apache Spark et pourrez l'appliquer à des problèmes réels ". Veuillez noter que je ne demande pas un résumé du livre, mais plutôt une description détaillée de l'intrigue ou de l'intrigue du livre. Titre du livre : Algorithmes de données avec Spark xth Early Release Alors que l'humanité est sur le point d'une nouvelle révolution technologique, la nécessité d'un paradigme personnel de perception du développement des connaissances modernes n'a jamais été aussi pertinente. Dans un monde où la technologie évolue à un rythme sans précédent, il peut être difficile de suivre les derniers développements et de comprendre leur impact sur nos vies. C'est particulièrement vrai dans le domaine de l'analyse Big Data, où Apache Spark est devenu un outil essentiel pour les ingénieurs et les scientifiques de données. Dans ce livre, nous allons discuter du processus de développement d'algorithmes pratiques et d'exemples pour cette infrastructure de calcul en grappe à l'aide de PySpark, Python, et R, et comment il peut être utilisé pour l'intégration avec d'autres outils Big Data, tels que Hadoop, Kafka et Hive.L'histoire commence par une introduction à Spark SQL et DataFrames, qui offrent un moyen puissant et expressif d'interroger et de manipuler de grands ensembles de données. Alors que nous nous enfoncons dans le monde de Spark, nous sommes confrontés à Spark Streaming, qui vous permet de traiter en temps réel des données en streaming provenant de différentes sources. GraphiqueX - une bibliothèque qui fournit un traitement de graphe performant, ainsi que Spark MLbou - une bibliothèque d'apprentissage automatique qui vous permet de construire des modèles prédictifs.
Python and R.libro destaca los fundamentos de Spark SQL y DataFrames, Spark Streaming, GraphX, Spark MLamb y SparkR. Y también se discute la integración de Spark con Hark adoop, Kafka, Hive y otras herramientas para trabajar con big data. libro ayudará a dominar los conceptos fundamentales de Apache Spark y su ecosistema, así como a prepararse para temas más avanzados como el aprendizaje automático, el procesamiento de gráficos y el procesamiento por secuencias. Al final del libro, desarrollarás una base sólida en Apache Spark y podrás aplicarla a problemas reales ". Tenga en cuenta que no estoy pidiendo un resumen del libro, sino una descripción detallada de la trama o la historia del libro. Título del libro: Algoritmos de datos con Spark xth Early Release A medida que la humanidad se encuentra en el umbral de una nueva revolución tecnológica, la necesidad de un paradigma personal para percibir el desarrollo del conocimiento moderno nunca ha sido tan relevante. En un mundo donde la tecnología evoluciona a una velocidad sin precedentes, puede ser difícil mantenerse al día con los últimos desarrollos y comprender su impacto en nuestras vidas. Esto es especialmente cierto cuando se trata del área de análisis de big data, donde Apache Spark se ha convertido en la herramienta más importante para los ingenieros de datos y los científicos de datos. En este libro examinaremos el proceso de desarrollo de algoritmos prácticos y ejemplos para esta infraestructura de computación en clúster utilizando PySpark, Python, y R, y cómo se puede utilizar para integrarse con otras herramientas de big data, como Hadoop, Kafka y Hive.La historia comienza con una introducción a Spark SQL y DataFrames, que proporcionan una manera poderosa y expresiva de consultar y manipular grandes conjuntos de datos. A medida que nos adentramos en el mundo de Spark, nos encontramos con Spark Streaming, que permite procesar datos de streaming de varias fuentes en tiempo real. También se presenta GraphX, una biblioteca que proporciona procesamiento de gráficos de alto rendimiento, así como Spark MLamb, una biblioteca de aprendizaje automático que permite la construcción de modelos predictivos.
Python and R.R.O livro ilumina os fundamentos de Spark SQL e DataFrames, Spark Streaming, GraphX, Spark MLlib e SparkR.it também discute a integração do Spark com Hadoop, Kafka, Hive e outras ferramentas para lidar com os grandes dados. O livro ajudará a aprender os conceitos fundamentais de Apache Spark e seus ecossistemas, além de preparar para temas mais avançados, tais como aprendizagem de máquinas, processamento de gráficos e streaming. Ao final do livro, você desenvolverá uma base sólida no Apache Spark e poderá aplicá-lo a problemas reais ". Note que não estou pedindo um resumo do livro, mas sim uma descrição detalhada da história ou narrativa do livro. Nome do livro: Algoritmos de dados com Spark xth Early Release À medida que a humanidade está no limiar de uma nova revolução tecnológica, a necessidade de um paradigma pessoal de percepção do desenvolvimento do conhecimento moderno nunca foi tão relevante. Num mundo em que as tecnologias evoluem a uma velocidade sem precedentes, é difícil seguir os últimos desenvolvimentos e compreender o seu impacto nas nossas vidas. Isto é particularmente relevante quando se trata da área de analistas de big data, onde Apache Spark tornou-se uma ferramenta essencial para engenheiros de dados e cientistas de dados. Neste livro, vamos analisar o processo de desenvolvimento de algoritmos práticos e exemplos para esta infraestrutura de computação em cluster usando o PySpark, Python, R, e como pode ser usado para integrar outras ferramentas de big data, tais como Hadoop, Kafka e Hive.A história começa com a introdução em Spark SQL e DataFrames, que fornecem uma maneira poderosa e expressiva de pedir e manipular grandes conjuntos de dados. À medida que nos aprofundamos no mundo Spark, enfrentamos o Spark Streaming, que permite processar em tempo real dados de streaming de várias fontes. Apresenta também uma biblioteca que fornece processamento de gráficos de alto desempenho, além da Spark MLlib, uma biblioteca de aprendizagem de máquinas que permite a construção de modelos prognósticos.
Python and R. Il libro illustra le basi di Spark SQL e DataFrames, Spark Streaming, GraphX, Spark MLlib e SparkR.IT anche l'integrazione di Spark con Hadoop, Kafka, Hive e altri strumenti per i grandi dati. Il libro aiuterà a imparare i concetti fondamentali di Apache Spark e del suo ecosistema, e a prepararsi a temi più avanzati come apprendimento automatico, elaborazione grafica e elaborazione in streaming. Alla fine del libro, svilupperete una base solida in Apache Spark e potrete applicarla ai problemi reali ". noti che non sto chiedendo un curriculum del libro, ma piuttosto una descrizione dettagliata della trama o della trama del libro. Titolo del libro: algoritmi di dati con Spark xth Early Release Mentre l'umanità è sulla scia di una nuova rivoluzione tecnologica, il bisogno di un paradigma personale per la percezione dello sviluppo della conoscenza moderna non è mai stato così urgente. In un mondo in cui la tecnologia si sviluppa ad una velocità senza precedenti, è difficile stare al passo con gli ultimi sviluppi e comprenderne l'impatto sulle nostre vite. Ciò è particolarmente rilevante quando si tratta dell'area di analisi dei big data, dove Apache Spark è diventato uno strumento fondamentale per gli ingegneri e gli scienziati di data. In questo libro esamineremo il processo di sviluppo di algoritmi e esempi pratici per questa infrastruttura di cluster computing utilizzando il PySpark. Python, R e come può essere utilizzato per integrarsi con altri strumenti di grandi dimensioni come Hadoop, Kafka e Hive.La storia inizia con l'introduzione di Spark SQL e DataFrames, che forniscono un metodo potente ed esplicito per la richiesta e la manipolazione di grandi set di dati. Mentre ci approfondiamo nel mondo Spark, ci troviamo di fronte a Spark Streaming, che permette di elaborare in tempo reale i dati in streaming da diverse fonti. È inoltre disponibile una libreria GraphX, una libreria che fornisce elaborazione grafica ad alte prestazioni e una libreria di apprendimento automatico Spark MLlib che consente di costruire modelli predittivi.
Python und R. Das Buch beleuchtet die Grundlagen von Spark SQL und DataFrames, Spark Streaming, GraphX, Spark MLlib und SparkR. Außerdem wird die Integration von Spark mit Hadoop, Kafka, Hive und anderen Big-Data-Tools diskutiert Das Buch wird dazu beitragen, die grundlegenden Konzepte von Apache Spark und seinem Ökosystem zu beherrschen und sich auf fortgeschrittene Themen wie maschinelles rnen, Graphenverarbeitung und Streaming-Verarbeitung vorzubereiten. Am Ende des Buches werden e eine solide Grundlage in Apache Spark entwickeln und in der Lage sein, sie auf reale Probleme anzuwenden. " Bitte beachten e, dass ich nicht um eine Zusammenfassung des Buches bitte, sondern um eine detaillierte Beschreibung der Handlung oder des Handlungsverlaufs des Buches. Buchtitel: Datenalgorithmen mit Spark xth Early Release Während die Menschheit an der Schwelle zu einer neuen technologischen Revolution steht, war die Notwendigkeit eines persönlichen Paradigmas für die Wahrnehmung der Entwicklung des modernen Wissens noch nie so dringend. In einer Welt, in der sich die Technologie mit beispielloser Geschwindigkeit weiterentwickelt, kann es schwierig sein, mit den neuesten Entwicklungen Schritt zu halten und ihre Auswirkungen auf unser ben zu verstehen. Dies gilt insbesondere für den Bereich Big Data Analytics, wo Apache Spark zum wichtigsten Werkzeug für Data Engineers und Data Scientists geworden ist. In diesem Buch werden wir den Prozess der Entwicklung praktischer Algorithmen und Beispiele für diese Cluster-Computing-Infrastruktur mit PySpark untersuchen. Python, und R, und wie es für die Integration mit anderen Big-Data-Tools verwendet werden kann, wie Hadoop, Kafka und Hive. Die Geschichte beginnt mit einer Einführung in Spark SQL und DataFrames, die eine kraftvolle und ausdrucksstarke Art der Abfrage und Manipulation großer Datensätze bieten. Während wir tiefer in die Welt von Spark eintauchen, stoßen wir auf Spark Streaming, das die Verarbeitung von Streaming-Daten aus verschiedenen Quellen in Echtzeit ermöglicht. GraphX, eine Bibliothek, die Hochleistungs-Graphenverarbeitung bietet, wird ebenfalls vorgestellt, ebenso wie Spark MLlib, eine Bibliothek für maschinelles rnen, mit der e Vorhersagemodelle erstellen können.
Python i R. Książka wyróżnia podstawy Spark SQL i SQL, Iskra Streaming, GraphX, Iskra MLlib i SparkR. Omawia również integrację Spark z Hadoop, Kafka, Hive i innych dużych narzędzi danych Książka pomoże opanować podstawowe koncepcje Apache Spark i jego ekosystemu, a także przygotować się do bardziej zaawansowanych tematów, takich jak uczenie maszynowe, przetwarzanie wykresów i streaming. Pod koniec książki, opracujesz solidny fundament w Apache Spark i można zastosować go do prawdziwych problemów. "Proszę zwrócić uwagę, że nie proszę o streszczenie książki, ale raczej szczegółowy opis fabuły lub fabuły książki. Tytuł książki: Algorytmy danych z iskrą Szóste wczesne wydanie Jak ludzkość stoi na skraju nowej rewolucji technologicznej, potrzeba osobistego paradygmatu postrzegania rozwoju nowoczesnej wiedzy nigdy nie była bardziej pilna. W świecie, w którym technologia rozwija się w bezprecedensowych tempach, może być trudno nadążyć za najnowszymi osiągnięciami i zrozumieć ich wpływ na nasze życie. Dotyczy to zwłaszcza analizy dużych danych, gdzie Apache Spark stał się kluczowym narzędziem dla inżynierów danych i naukowców zajmujących się danymi. W tej książce przyglądamy się procesowi opracowywania praktycznych algorytmów i przykładów dla tej klastrowej infrastruktury obliczeniowej za pomocą PySpark, Python i R oraz temu, jak można ją wykorzystać do integracji z innymi wielkimi narzędziami danych, takimi jak Hadoop, Kafka i Hive. Opowieść rozpoczyna się od wprowadzenia do Spark SQL i KeyFrames, które zapewniają potężny i ekspresyjny sposób na zapytanie i manipulowanie dużymi zbiorami danych. Kiedy zagłębiamy się w świat Iskry, natrafiamy na Spark Streaming, który pozwala na przetwarzanie danych strumieniowych z różnych źródeł w czasie rzeczywistym. GraphX, biblioteka, która zapewnia wysokowydajne przetwarzanie wykresów, jest również prezentowany, jak również Spark MLlib, biblioteka uczenia maszynowego, który pozwala na budowę modeli predykcyjnych.
''
Python ve R. Kitap, Spark SQL ve DataFrames, Spark Streaming, GraphX, Spark MLlib ve SparkR'nin temellerini vurgulamaktadır. Ayrıca Spark'ın Hadoop, Kafka, Hive ve diğer büyük veri araçlarıyla entegrasyonunu tartışıyor Kitap, Apache Spark ve ekosisteminin temel kavramlarına hakim olmanın yanı sıra makine öğrenimi, grafik işleme ve akış gibi daha gelişmiş konulara hazırlanmaya yardımcı olacak. Kitabın sonunda, Apache Spark'ta sağlam bir temel geliştirmiş olacaksınız ve bunu gerçek sorunlara uygulayabilirsiniz. "Lütfen kitabın bir özetini değil, kitabın konusu veya hikayesi hakkında ayrıntılı bir açıklama istediğimi unutmayın. Kitap adı: Spark ile Veri Algoritmaları Altıncı Erken Yayın İnsanlık yeni bir teknolojik devrimin eşiğinde dururken, modern bilginin gelişiminin kişisel bir algı paradigmasına duyulan ihtiyaç hiç bu kadar acil olmamıştı. Teknolojinin benzeri görülmemiş oranlarda ilerlediği bir dünyada, en son gelişmelere ayak uydurmak ve yaşamlarımız üzerindeki etkilerini anlamak zor olabilir. Bu, özellikle Apache Spark'ın veri mühendisleri ve veri bilimcileri için kritik bir araç haline geldiği büyük veri analitiği söz konusu olduğunda geçerlidir. Bu kitapta, PySpark, Python ve R kullanarak bu küme hesaplama altyapısı için pratik algoritmalar ve örnekler geliştirme sürecine ve Hadoop, Kafka ve Hive gibi diğer büyük veri araçlarıyla entegre etmek için nasıl kullanılabileceğine bakıyoruz. Hikaye, büyük veri kümelerini sorgulamak ve işlemek için güçlü ve etkileyici bir yol sağlayan Spark SQL ve DataFrames'e bir giriş ile başlar. Spark dünyasına derinlemesine baktıkça, çeşitli kaynaklardan gelen akış verilerini gerçek zamanlı olarak işlemenizi sağlayan Spark Streaming ile karşılaşıyoruz. Yüksek performanslı grafik işleme sağlayan bir kütüphane olan GraphX'in yanı sıra, tahmini modeller oluşturmanıza olanak tanıyan bir makine öğrenme kütüphanesi olan Spark MLlib de sunulmaktadır.
يسلط الكتاب الضوء على أساسيات Spark SQL و DataFrames و Spark Streaming و GraphX و Spark MLlib و SparkR. كما يناقش دمج Spark مع Hadoop و Kafka و Hive وأدوات البيانات الضخمة الأخرى سيساعد الكتاب في إتقان المفاهيم الأساسية لـ Apache Spark ونظامها البيئي، بالإضافة إلى الاستعداد لمواضيع أكثر تقدمًا مثل التعلم الآلي ومعالجة الرسوم البيانية و البث. بحلول نهاية الكتاب، ستكون قد طورت أساسًا صلبًا في Apache Spark ويمكنك تطبيقه على المشكلات الحقيقية. "يرجى ملاحظة أنني لا أطلب ملخصًا للكتاب، بل وصفًا مفصلاً لمؤامرة أو قصة الكتاب. عنوان الكتاب: خوارزميات البيانات مع Spark xth Early Release نظرًا لأن البشرية تقف على وشك ثورة تكنولوجية جديدة، فإن الحاجة إلى نموذج شخصي لإدراك تطور المعرفة الحديثة لم تكن أكثر إلحاحًا من أي وقت مضى. في عالم تتقدم فيه التكنولوجيا بمعدلات غير مسبوقة، قد يكون من الصعب مواكبة آخر التطورات وفهم تأثيرها على حياتنا. هذا صحيح بشكل خاص عندما يتعلق الأمر بتحليلات البيانات الضخمة، حيث أصبحت Apache Spark أداة مهمة لمهندسي البيانات وعلماء البيانات. في هذا الكتاب، ننظر في عملية تطوير خوارزميات عملية وأمثلة لهذه البنية التحتية للحوسبة العنقودية باستخدام PySpark و Python و R، وكيف يمكن استخدامها للتكامل مع أدوات البيانات الضخمة الأخرى، مثل Hadoop و Kafka و Hive. تبدأ القصة بمقدمة لـ Spark SQL و DataFrames، والتي توفر طريقة قوية ومعبرة للاستعلام عن مجموعات البيانات الكبيرة والتلاعب بها. بينما نتعمق أكثر في عالم Spark، صادفنا Spark Streaming، والذي يسمح لك بمعالجة بيانات البث من مصادر مختلفة في الوقت الفعلي. يتم أيضًا تقديم GraphX، وهي مكتبة توفر معالجة رسم بياني عالية الأداء، بالإضافة إلى Spark MLlib، وهي مكتبة تعلم آلي تسمح لك ببناء نماذج تنبؤية.
파이썬과 R.이 책은 Spark SQL 및 DataFrames, Spark Streaming, GraphX, Spark MLlib 및 SparkR의 기본 사항을 강조합니다. 또한 Spark와 Hadoop, Kafka, Hive 및 기타 빅 데이터 도구의 통합에 대해 설명합니다.이 책은 Apache Spark 및 생태계의 기본 개념을 마스터하고 기계 학습, 그래프 처리 및 스트리밍과 같은 고급 주제를 준비하는 데 도움이됩니다.. 이 책이 끝날 무렵, Apache Spark에서 견고한 기반을 개발하여 실제 문제에 적용 할 수 있습니다. "저는이 책의 요약을 요구하는 것이 아니라 책의 줄거리 나 스토리에 대한 자세한 설명을 요구하고 있습니다. 책 제목: Spark xth Early Release의 데이터 알고리즘 인류가 새로운 기술 혁명 직전에 서서 현대 지식 개발에 대한 개인적인 인식 패러다임의 필요성은 결코 시급하지 않았습니다. 기술이 전례없는 속도로 발전하고있는 세상에서는 최신 개발을 따라 가고 우리의 삶에 미치는 영향을 이해하기가 어려울 수 있습니다. Apache Spark가 데이터 엔지니어 및 데이터 과학자에게 중요한 도구가 된 빅 데이터 분석과 관련하여 특히 그렇습니다. 이 책에서는 PySpark, Python 및 R을 사용하여이 클러스터 컴퓨팅 인프라에 대한 실제 알고리즘 및 예제를 개발하는 프로세스와 Hadoop, Kafka 및 Hive와 같은 다른 빅 데이터 도구와 통합하는 데 사용할 수있는 방법을 살펴 봅니다. 스토리는 Spark SQL 및 DataFrames에 대한 소개로 시작하여 대규모 데이터 세트를 쿼리하고 조작하는 강력하고 표현적인 방법을 제공합니다. Spark의 세계를 자세히 살펴보면 Spark Streaming을 통해 다양한 소스에서 스트리밍 데이터를 실시간으로 처리 할 수 있습니다. 고성능 그래프 처리를 제공하는 라이브러리 인 GraphX와 예측 모델을 구축 할 수있는 머신 러닝 라이브러리 인 Spark MLlib도 제공됩니다.
PythonとR。この本は、Spark SQLとDataFrames、 Spark Streaming、 GraphX、 Spark MLlib、 SparkRの基本を強調しています。また、SparkとHadoop、 Kafka、 Hiveなどのビッグデータツールの統合についても説明しています。この本は、Apache Sparkとそのエコシステムの基本的な概念を習得し、機械学習、グラフ処理、ストリーミングなどのより高度なトピックに備えるのに役立ちます。本の終わりまでに、あなたはApache Sparkの堅実な基盤を開発し、それを実際の問題に適用することができます。"私は本の要約を求めているのではなく、本のプロットやストーリーの詳細な説明を求めていることに注意してください。Spark xth Early Releaseのデータアルゴリズム人類は新しい技術革命の危機に瀕しているので、現代の知識の発展に対する認識の個人的なパラダイムの必要性は、これまで以上に緊急ではありませんでした。テクノロジーが前例のない速度で進歩している世界では、最新の開発に追いついて、私たちの生活に与える影響を理解することは難しいかもしれません。特にビッグデータ分析に関しては、Apache Sparkがデータエンジニアやデータサイエンティストにとって重要なツールとなっています。本書では、PySpark、 Python、 Rを使用して、このクラスタコンピューティングインフラストラクチャの実用的なアルゴリズムと例を開発するプロセスと、Hadoop、 Kafka、 Hiveなどの他のビッグデータツールとの統合にどのように使用できるかについて見ていきます。物語は、Spark SQLとDataFramesの紹介から始まり、大きなデータセットをクエリして操作する強力で表現的な方法を提供します。Sparkの世界を深く掘り下げると、さまざまなソースからのストリーミングデータをリアルタイムで処理できるSpark Streamingが登場します。高性能なグラフ処理を提供するライブラリであるGraphXと、予測モデルを構築できる機械学習ライブラリであるSpark MLlibも紹介されています。
