Tag: scala

30 articles

Spark MLlib GBDT Algorithm: Gradient Boosting Principles,...

This article introduces the principles and applications of gradient boosting tree (GBDT) algorithm. First explains boosting tree basic concept through simple examples, then details algorithm flow i...

6/3/2025

Spark MLlib Ensemble Learning: Random Forest, Bagging and...

This article systematically introduces ensemble learning methods in machine learning. Main content includes: 1) Basic definition and classification of ensemble...

6/2/2025

Spark MLlib Decision Tree Pruning: Pre-pruning, Post-prun...

This article systematically introduces decision tree pre-pruning and post-pruning principles, compares core differences between three mainstream algorithms...

5/29/2025

Spark MLlib Decision Tree: Classification Principles, Gin...

This article introduces the basic concepts, classification principles, and classification principles of decision trees. Decision tree is a non-linear...

5/28/2025

Spark MLlib Logistic Regression: Input Function, Sigmoid,...

This article introduces the basic principles, application scenarios, and implementation in Spark MLlib of logistic regression. Logistic regression is an efficient binary classification algorithm wi...

5/27/2025

Spark MLlib Linear Regression: Scenarios, Loss Function a...

Linear regression uses regression equations to model relationships between independent and dependent variables. This article covers regression scenarios (house...

4/11/2025

Big Data #268: Real-time Warehouse ODS Layer - Writing Ka...

Writing dimension tables (DIM) from Kafka typically involves reading real-time or batch data from Kafka topics and updating dimension tables based on the data...

1/3/2025

Big Data #269: Real-time Warehouse DIM, DW and ADS Layer ...

DW (Data Warehouse layer) is built from DWD, DWS, and DIM layer data, completing data architecture and integration, establishing consistent dimensions, and...

1/3/2025

Spark MLlib Logistic Regression: Sigmoid, Loss Function a...

Logistic regression is a classification model in machine learning — an efficient binary classification algorithm widely used in ad click-through rate...

1/3/2025

Big Data #266: Canal Integration with Kafka - Real-time D...

This article introduces Alibaba's open-source Canal tool, which implements Change Data Capture (CDC) by parsing MySQL binlog. Demonstrates how to integrate...

1/2/2025

Realtime Warehouse - ODS Lambda Architecture Kappa Archit...

In internet companies, common ODS data includes business log data (Log) and business DB data. For business DB data, collecting data from relational databases...

1/2/2025

Spark MLlib Linear Regression: Scenarios, Loss Function a...

Linear Regression is an analytical method that uses regression equations to model the relationship between one or more independent variables and a dependent...

1/2/2025

Realtime Warehouse - Business Database Table Structure: T...

Realtime data warehouse is a data warehouse system that differs from traditional batch processing data warehouses by emphasizing low latency, high throughput,...

12/28/2024

Spark Streaming Integration with Kafka: Receiver and Dire...

Detailed explanation of two Spark Streaming integration modes with Kafka: Receiver-based high-level API vs Direct mode architecture differences, offset management, Exactly-Once semantics guarantee,...

11/20/2024

Spark DStream Transformation Operators: map, reduceByKey,...

Systematically review Spark Streaming DStream stateless transformation operators and transform advanced operations, demonstrating three implementation approaches for blacklist filtering: leftOuterJ...

11/16/2024

Spark Streaming Window Operations & State Tracking: updat...

In-depth explanation of Spark Streaming stateful computing: window operation parameter configuration, reduceByKeyAndWindow hot word statistics, updateStateByKey full-state maintenance and mapWithSt...

11/16/2024

Spark Streaming Introduction: From DStream to Structured ...

Introduction to Spark's two generations of real-time computing frameworks: DStream micro-batch processing model's architecture and limitations, and how Structured Streaming solves EventTime process...

11/13/2024

Spark Streaming Data Sources: File Stream, Socket, RDD Qu...

Comprehensive explanation of three Spark Streaming basic data sources: file stream directory monitoring, Socket TCP ingestion, RDD queue stream for testing simulation, with complete Scala code exam...

11/13/2024

SparkSQL Statements: DataFrame Operations, SQL Queries & ...

Comprehensive guide to SparkSQL core usage including DataFrame API operations, SQL query syntax, lateral view explode, and Hive integration via enableHiveSupport for metadata and table operations.

11/9/2024

SparkSQL Kernel: Five Join Strategies & Catalyst Optimize...

Deep dive into SparkSQL's five Join execution strategies (BHJ, SHJ, SMJ, Cartesian, BNLJ) selection conditions and use cases, along with the complete processing flow of Catalyst optimizer from SQL ...

11/9/2024

SparkSQL Core Abstractions: RDD, DataFrame, Dataset & Spa...

Deep comparison of Spark's three data abstractions RDD, DataFrame, Dataset features and use cases, introduction to SparkSession unified entry, and demonstration of mutual conversion methods between...

11/6/2024

SparkSQL Operators: Transformation & Action Operations

Systematically review SparkSQL Transformation and Action operators, covering select, filter, join, groupBy, union operations, with practical test cases demonstrating usage and performance optimizat...

11/6/2024

SparkSQL Introduction: SQL & Distributed Computing Fusion

Systematic introduction to SparkSQL evolution history, core abstractions DataFrame/Dataset, Catalyst optimizer principle, and practical usage of multi-data source integration with Hive/HDFS.

11/2/2024

Spark RDD Fault Tolerance: Checkpoint Principle & Best Pr...

Detailed explanation of Spark Checkpoint execution flow, core differences with persist/cache, partitioner strategies, and best practices for iterative algorithms and long dependency chain scenarios.

10/30/2024

Spark Broadcast Variables: Efficient Shared Read-Only Data

Detailed explanation of Spark broadcast variable working principle, configuration parameters and best practices, and performance optimization solution using broadcast to implement MapSideJoin inste...

10/30/2024

Spark Super WordCount: Text Cleaning & MySQL Persistence

Implement complete production-ready word frequency pipeline: lowercase conversion, punctuation removal, stop word filtering, word frequency counting, finally efficiently write to MySQL via foreachP...

10/26/2024

Spark Serialization & RDD Execution Principle

Deep dive into Spark Driver-Executor process communication, Java/Kryo serialization selection, closure serialization problem troubleshooting, and RDD dependencies, Stage division and persistence st...

10/26/2024

Spark Scala WordCount Implementation

Implement distributed WordCount using Spark + Scala and Spark + Java, detailed RDD five-step processing flow, Maven project configuration and spark-submit command.

10/23/2024

Spark Scala Practice: Pi Estimation & Mutual Friends

Deep dive into Spark RDD programming through two classic cases: Monte Carlo method distributed Pi estimation, and mutual friends analysis in social networks with two approaches, comparing Cartesian...

10/23/2024

Spark Action Operations Overview

Comprehensive introduction to Spark RDD Action operations, covering data collection, statistical aggregation, element retrieval, storage output categories, and detailed explanation of Key-Value RDD...

10/19/2024