Blog

Technical exploration and thoughts · 655 articles

All big-data java ai artificial-intelligence programmer-life machine-learning mysql data-engineering backend distributed data-warehouse flink architecture python robotics spark hive llm distributed-system kafka database scala embodied-ai hdfs deep-learning spring message-queue langchain system-architecture mybatis performance-optimization elasticsearch mongodb health redis spring-boot rabbitmq mq hadoop elk flume stream-processing transaction messaging rpc tutorial sklearn caching cache dubbo java-rabbitmq clickhouse hbase kylin neo4j microservices sql index tomcat programmer multimodal zookeeper druid canal mllib orm ioc nutrition large-model robot-arm tesla indie-dev nginx datax sharding shardingsphere fastdfs rocketmq time-management applications career-growth docker etl guava java-rocketmq optimization learning quantization deployment kudu logstash decision-tree sqoop airflow realtime-warehouse mycat storage-engine consistency fat-loss gpt product-manager coffee business-analysis automation algorithm career-and-growth middleware computer-vision autonomous-driving fsd qwen mapreduce crud monitoring database-sharding distributed-transaction concurrency transaction-pitfalls graph-database memcached netty innodb salary career-development cold-shower running efficiency luckin industry medical industrial lfp lfp-battery battery ev fitness career-personal-growth ocr deepseek deepseek-ocr omni cloud-native yarn datastream jdbc olap knn linear-regression numpy zipper-table griffin devops kubernetes data-mapping design-patterns high-availability read-write-separation sharding-jdbc saga security replica-set cql source-code-analysis evcache servlet aop load-balancing handwritten nio mindfulness meditation exercise reinforcement-learning agent conflict evaluation money-management consumption savings social-media dating memory price-war cotti ptq qat qlora qwen2.5-vl multivitamin calcium evolution technology industrial-robot agriculture hardware simulation ros large-language-model degradation slam visual-inspection programming-language linux window raft kibana aggregation regularization logistic-regression prometheus exporter atlas state-management maven acid annotation-development master-slave-replication flexible-transaction xa cap 2pc 3pc bson explain b+tree slow-query authentication cluster oss aliyun source-code async netflix jms paxos rmi engineering physiology hot-shower practical-guide muscle-building transformer tensorflow reports technical-sharing product entrepreneurship methodology team-collaboration conflict-resolution collaboration gtd tools usage-time health-management china-us culture marriage partner coffee-beverage-trend homemade-coffee taste performance fine-tuning blip-2 minigpt-4 llava alibaba vitamins fish-oil vitamin-c iron folate chronic-disease supplements traditional-chinese-medicine western-medicine integrated-medicine development-history tech-evolution lakehouse data-mesh serverless talent tech-selection history unimate hydraulic-drive ai-collaboration categories service-robot humanoid-robot logistics career skills trends service scara cobot motor reducer sensor plc mpc control trajectory-planning vision core-technology perception decision-making home data market challenges commercialization future-trends meta-learning lifestyle nmc-battery body-fat-percentage body-shaping muscle-gain strength-training body-fat metabolism sympathetic-nerve parasympathetic-nerve autonomic-nervous-system hrv testing-platform api-integration automotive 3d model-y open-source imitation-learning visual-algorithms research java-21 kotlin golang rust javascript node k8s gemini cep source sink dataset mergetree ik-analyzer dsl term-query filter inverted-index nrt grok filebeat tez data-mining cross-validation normalization evaluation-metrics ridge-regression lasso gradient-descent grafana visualization ods scd dimension-table dwd dws ads realtime memory-management parallelism harbor container esp32 home-assistant jenkins gitlab cicd essay website astro frontend xml-mapping dynamic-sql sqlsession high-concurrency mha failover distributed-primary-key scaling binding-tables sql-optimization binding-table tcc seata data-masking distributed-database sharding-proxy sharding-strategy e-r-sharding configuration-file transaction-isolation-level schema.xml propagation declarative-transaction programmatic-transaction transactional plugin database-operations nosql json pipeline pagination writeconcern pagehelper generic-mapper b-tree use-cases selection-guide template repository wiredtiger inmemory containerization data-modeling embedded reference oplog election permissions sharded-cluster graph-theory euler-path proxy-pattern embedded-database backup access-control dynamic-proxy cloud-storage lru concurrenthashmap oom distributed-cache spymemcached activemq blockingqueue message-storage queue-index erlang handwritten-framework jdk reverse-proxy process configuration class-loading ssl jvm io heartbeat-detection spi routing storage-structure undo redo thread-model tablespace binlog replication clustered-index lock mvcc sorting pip offline pandas voice

How to Handle Multicollinearity: Common Problems & Soluti...

When using scikit-learn for linear regression, how to handle multicollinearity in least squares method. Multicollinearity may cause instability in regression...

11/5/2024

big-datamachine-learninglinear-regressionsklearnpython

Ridge Regression and Lasso Regression: Differences, Appli...

Ridge Regression and Lasso Regression are two commonly used linear regression regularization methods for solving overfitting and multicollinearity in machine...

11/5/2024

big-datamachine-learningridge-regressionlassoregularization

Linear Regression Machine Learning Perspective: Matrix Re...

Linear Regression core chain: unify prediction function y=Xw in matrix form, treat parameter vector w as only unknown; use loss function to characterize...

11/4/2024

big-datamachine-learninglinear-regressionpythonnumpy

NumPy Matrix Multiplication Hand-written Multivariate Lin...

pandas DataFrame and NumPy matrix multiplication hand-written multivariate linear regression (linear regression implementation). Core idea is to form normal...

11/4/2024

big-datamachine-learninglinear-regressionpythonnumpy

sklearn Decision Tree Pruning Parameters: max_depth/min_s...

Common parameters for decision tree pruning (pre-pruning) in engineering: max_depth, min_samples_leaf, min_samples_split, max_features, min_impurity_decrease...

11/2/2024

big-datamachine-learningsklearndecision-treepython

Confusion Matrix to ROC: Complete Review of Imbalanced Bi...

Confusion matrix (TP, FP, FN, TN) with unified metrics: Accuracy, Precision, Recall (Sensitivity), F1 Measure, ROC curve, AUC value, and practical business interpretation for classification models.

11/2/2024

big-datamachine-learningsklearnevaluation-metricspython

Spark Standalone Mode: Architecture & Performance Tuning

Comprehensive explanation of Spark Standalone cluster four core components, application submission flow, SparkContext internal architecture, Shuffle evolution history and RDD optimization strategies.

11/2/2024

big-datasparkdistributed-systemdata-engineering

SparkSQL Introduction: SQL & Distributed Computing Fusion

Systematic introduction to SparkSQL evolution history, core abstractions DataFrame/Dataset, Catalyst optimizer principle, and practical usage of multi-data source integration with Hive/HDFS.

11/2/2024

big-datasparkscalasqldata-engineering

Decision Tree from Split to Pruning: Information Gain/Gai...

Complete chain from 'split' to 'pruning', explain why usually uses greedy algorithm to form 'local optimum', and differences in splitting criteria between...

11/1/2024

big-datamachine-learningsklearndecision-treepython

sklearn Decision Tree Practice: criterion, Graphviz Visua...

Complete flow of DecisionTreeClassifier on load_wine dataset from data splitting, model evaluation to decision tree visualization (2026 version). Focus on...

11/1/2024

big-datamachine-learningsklearndecision-treepython

Decision Tree Model Detailed: Node Structure, Conditional...

Decision Tree model systematic overview for classification tasks: three types of nodes (root/internal/leaf), recursive split flow from root to leaf, and...

10/31/2024

big-datamachine-learningdecision-tree

Decision Tree Information Gain Detailed: Information Entr...

Decision tree information gain (Information Gain) explained, first using information entropy (Entropy) to explain impurity, then explaining why when splitting...

10/31/2024

big-datamachine-learningdecision-tree

K-Fold Cross-Validation Practice: sklearn Look at Mean/Va...

Random train/test split causes evaluation metrics to be unstable, and gives engineering solution: K-Fold Cross Validation. Through sklearn's cross_val_score to...

10/30/2024

big-datamachine-learningcross-validation

KNN Must Normalize First: Min-Max Correct Method, Data Le...

In scikit-learn machine learning training pipeline, distance-based models like KNN are extremely sensitive to inconsistent feature scales: Euclidean distance...

10/30/2024

big-datamachine-learningknnnormalization

Spark RDD Fault Tolerance: Checkpoint Principle & Best Pr...

Detailed explanation of Spark Checkpoint execution flow, core differences with persist/cache, partitioner strategies, and best practices for iterative algorithms and long dependency chain scenarios.

10/30/2024

big-datasparkscaladata-engineering

Spark Broadcast Variables: Efficient Shared Read-Only Data

Detailed explanation of Spark broadcast variable working principle, configuration parameters and best practices, and performance optimization solution using broadcast to implement MapSideJoin inste...

10/30/2024

big-datasparkscaladata-engineering

KNN/K-Nearest Neighbors Algorithm Practice: Euclidean Dis...

KNN/K-Nearest Neighbors Algorithm: From Euclidean distance calculation, distance sorting, TopK voting to function encapsulation, giving reproducible Python...

10/29/2024

big-datamachine-learningknn

scikit-learn KNN Practice: KNeighborsClassifier, kneighbo...

From unified API (fit/predict/transform/score) to kneighbors to find K nearest neighbors of test samples, then using learning curve/parameter curve to select...

10/29/2024

big-datamachine-learningsklearnknn

Apache Tez Practice: Hive on Tez Installation & Configura...

Apache Tez (example version Tez 0.9.x) as execution engine alternative to MapReduce on Hadoop2/YARN, providing DAG (Directed Acyclic Graph) execution model for...

10/28/2024

big-datatezhive

Data Mining: From Wine Classification to Machine Learning...

2025's most commonly used machine learning concept framework: supervised learning (classification/regression), unsupervised learning (clustering/dimensionality...

10/28/2024

big-datamachine-learningdata-mining