微光实验室 · 标签归档

标签: python

共 44 篇文章，按主题汇总相关教程、案例、工程实践和阶段性总结。

AI研究-134 Java 2025：会衰退吗？LTS 路线、云原生与工程化落地趋势研究

2025 年，Java 依然是企业级后端与关键行业的主力。核心关键词：Java 25 LTS、Java 21 LTS、Spring Boot、MicroProfile、Kubernetes、Serverless、Project Loom...

2025/12/1

AI研究-133 Java vs Kotlin/Go/Rust/Python/Node：2025 详细对比分析定位与选型

本文对比了Java 21/23（虚拟线程/Loom）与Kotlin 2.x、Go 1.22/1.23、Rust 1.7x、Python（PyTorch 2.x/TensorFlow 2.x）、Node.js 20/22的路线、生态...

2025/11/28

AI研究-131 Java 17/21/25 全面对比：关键特性、并发优化与升级注意事项

Java 17（2021）、Java 21（2023）、Java 25（2025）的语言与 JVM 变化，涵盖虚拟线程（Project Loom）、记录/模式匹配（Project Amber）、ZGC/G1 与代际回收...

2025/11/26

大数据-215 sklearn KMeans 关键属性与评估：cluster_centers_、inertia_、与指标选 K

场景：用 sklearn 做 KMeans 聚类，想解释中心点/损失，并用指标选 K。

2024/11/9

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_init/max_iter 参数调优

KMeans 选 nclusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouettescore 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优。

2024/11/9

大数据-213 Python 手写 K-Means 聚类实战（鸢尾花 Iris 数据集）：从距离函数到迭代收敛与坑点

Python K-Means 聚类实现：基于 NumPy 广播计算欧式距离平方和（distEclud），在特征范围内均匀采样初始化质心（randCent），并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇...

2024/11/8

大数据-214 K-Means 聚类实战：自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 验证

K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程：先用二维 testSet 数据集做算法验证（pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果）...

2024/11/8

大数据-211 逻辑回归的 Scikit-Learn 实现：max_iter、分类方式与多元回归的优化方法

Scikit-Learn 中使用逻辑回归时，maxiter 控制最大迭代次数，影响模型的收敛速度和精度。如果训练未收敛，可能会收到警告提示需要增大 maxiter。不过，过高的迭代次数可能导致过拟合，影响测试集的表现。

2024/11/7

大数据-212 K-Means 聚类实战指南：从无监督概念到 Inertia、K 值选择与避坑

聚类算法 K-Means，梳理监督学习与无监督学习的差异（是否需要标签 Y），并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」...

2024/11/7

大数据-209 深度理解逻辑回归（Logistic Regression）与梯度下降优化算法

逻辑回归（Logistic Regression, LR）是机器学习中重要的分类算法，广泛应用于二元分类任务，如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字，实则是一种分类方法。

2024/11/6

大数据-207 如何应对多重共线性：使用线性回归中的最小二乘法时常见问题与解决方案

scikit-learn 进行线性回归时，如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性，表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响，并提出了几种改进的回归方法...

2024/11/5

大数据-205 线性回归的机器学习视角：矩阵表示、SSE损失与最小二乘

线性回归（Linear Regression）的核心链路：用矩阵形式统一表示预测函数 y=Xw，将参数向量 w 作为唯一未知量；以损失函数刻画拟合误差，重点解释 SSE（残差平方和/误差平方和）作为回归任务的典型优化目标

2024/11/4

大数据-206 用 NumPy 矩阵乘法手写多元线性回归：正规方程、SSE/MSE/RMSE 与 R²

pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归（线性回归实现）。核心思路是将特征矩阵 X（包含一列全 1 作为截距）与标签 y 组成正规方程，通过 w=(X^TX)^{-1}X^Ty 直接求解参数权重。

2024/11/4

大数据-203 scikit-learn 决策树剪枝参数：max_depth/min_samples_leaf 参数调优

场景：DecisionTreeClassifier 过拟合、树太大/内存飙升、样本不均衡需要可控剪枝与权重结论：优先用 maxdepth + minsamplesleaf 做基线

2024/11/2

大数据-204 混淆矩阵到ROC：不平衡二分类评估指标全梳理 sklearn

混淆矩阵（TP、FP、FN、TN）建立统一口径，解释 Accuracy、Precision（查准率）、Recall（查全率/敏感度）、F1 Measure 的业务含义：Precision 对应"误伤多数类"的成本...

2024/11/2

大数据-201 决策树从分裂到剪枝：信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路，解释其为何通常采用贪心算法形成"局部最优"，以及不同算法在分裂准则上的差异：ID3/C4.5偏信息增益（Information Gain），但信息增益会偏向取值多的特征，因此引入信息增益比/增益率（Gain R...

2024/11/1

大数据-202 sklearn 决策树实战：criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 loadwine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程（2026版）。重点解释 criterion 的选择：gini（基尼不纯度）、entropy 与 logloss（信息...

2024/11/1

LangChain-26 Custom Agent 全面教程从零构建自定义智能体

本文展示了如何在Python中使用Langchain库和GPT-4模型创建一个聊天代理，通过定义工具函数并将其与LLM集成，实现对用户输入中单词长度等信息的查询。

2024/4/15

LangChain-24 AgentExecutor 全面详解

本文介绍了如何在Python中使用Langchain库进行文档检索，加载Web内容，配置OpenAIEmbeddings，并集成GPT-3.5-turbo模型进行问答。展示了如何创建代理执行器来处理用户查询并获取相关信息。

2024/4/14

LangChain-25 ReAct框架详解大语言模型推理与行动融合

文章介绍了大模型ReAct，一种利用逻辑推理和行动序列实现目标导向的框架，通过LLM进行决策和操作。核心组成部分包括Thought（思考）、Act（行动）和Obs（观察）。

2024/4/14

LangChain-22 Text Embedding与FAISS实战详解

本文介绍了TextEmbedding在NLP中的关键作用，如何将文本转换为实数向量以表达语义关系，以及如何结合OpenAIEmbeddings和FAISS进行高效存储和查询。

2024/4/13

LangChain-23 Vector AI语义检索系统向量数据库+大语言模型

文章介绍了如何使用Chroma向量数据库处理和检索来自文档的高维向量嵌入，通过OpenAI和HuggingFace模型进行向量化，并展示了在实际场景中如何通过大模型进行问答和增强回复的应用实例。

2024/4/13

LangChain-20 文档加载器 TextLoader、CSVLoader、PyPDFLoader、JSONLoader

本文介绍了LangChain库提供的多种文档加载器，如TextLoader、CSVLoader、DirectoryLoader等，展示了如何加载和处理各种格式的数据。

2024/4/12

LangChain-21 Text Splitter 全面详解

本文介绍了LangChain库中的各种TextSplitters，包括基于字符、单词、HTML标签和编程语言的分割器，以及它们的应用场景。

2024/4/12

LangChain-18 缓存机制详解 InMemoryCache与SQLiteCache

LangChain 提供完善的缓存机制，用于显著降低 LLM 调用延迟与成本。其核心包括 InMemoryCache（内存缓存）与 SQLiteCache（持久化缓存）。

2024/4/11

LangChain-19 TokenUsage 回调函数详解

介绍了如何在Python中通过LangChain库集成OpenAI GPT-3模型，展示如何使用getopenaicallback函数来获取回调并执行请求。

2024/4/11

LangChain-16 Using Tools 掌握 LLM 工具调用

LangChain 是当前最热门的 LLM 应用开发框架之一，专为构建智能助手、自动化流程和AI数据分析而设计。通过其强大的工具集成能力，开发者可轻松调用外部API，实现从搜索、计算到文件处理的多功能自动化。

2024/4/10

LangChain-17 Function Calling AI函数调用的工作原理

Function Calling（函数调用）是大语言模型（如GPT-4、Claude、Gemini）与外部系统交互的核心技术。它让AI不仅能理解语言，还能执行任务，实现从文本对话到真实操作的跨越。

2024/4/10

LangChain-14 OpenAI 内容审核 Moderation详解

内容审核（Moderation）是现代互联网平台安全与合规的核心环节，用于识别、过滤和管理用户生成内容（UGC），防止违法违规、低质或有害信息的传播。

2024/4/9

LangChain-15 智能知识检索：AgentExecutor执行机制

本文介绍了如何通过Wikipedia搜索插件、AgentExecutor执行机制、上下文Token控制来构建智能知识检索系统。

2024/4/9

LangChain-12 Routing By Semantic Similarity 语义相似度路由

本文介绍了一种使用大模型（如OpenAI）和Prompt模板的方法，通过计算查询与预设模板的相似度来处理程序设计中非预期输入的问题。

2024/4/8

LangChain-13 Memory ConversationBufferMemory 对话记忆与上下文管理

本文介绍了如何利用LangChain库中的工具在Python中管理大模型的会话上下文，通过ConversationBufferMemory和RunnableLambda等组件，实现在连续对话中保存和加载用户信息，使大模型具有记忆功能。

2024/4/8

LangChain-11 Code Writing FunctionCalling 自回归语言建模、大数计算局限与代码生成

文章介绍了如何使用GPT-3.5-Turbo模型编写Python代码来解决用户的抽象计算问题，如2+2和复杂的数学表达式，展示了模型在处理非标准问题上的潜力。

2024/4/7

LangChain-09 Query SQL DB With RUN GPT 实现自然语言查询数据库

文章介绍了如何使用Python库如langchain和ChatOpenAI(GPT-3.5-turbo)结合SQLite数据库，创建一个程序来执行SQL查询并以自然语言形式返回结果。

2024/4/6

LangChain-10 Agents Langchainhub使用指南

文章介绍了如何通过LangChainHub的Hub机制，利用Python代码轻松访问和共享Prompt。尽管该项目已有一年未更新，但作者仍看好其潜力，展示了如何安装依赖并使用一个模拟搜索引擎的工具来获取天气信息。

2024/4/6

LangChain-07 Multiple Chains 多链串联

本文展示了如何使用LangChain库中的Runnable和Prompts，配合OpenAI模型，创建一个可以串联的对话链，以实现多阶段问题解答。通过实例演示了如何构建并执行一个包含两个步骤的查询过程。

2024/4/5

LangChain-08 Query SQL DB 通过GPT自动查询SQL

本文介绍了如何在LangChain框架下，通过Python脚本导入ChinookSQLite数据库，利用GPT模型执行SQL查询，如计算员工数量。

2024/4/5

LangChain-05 RAG 增强检索会话 Conversational

本文介绍了如何使用Langchain库中的工具，如OpenAIEmbeddings和ChatModels，结合文档检索技术，创建一个基于对话历史生成回答的程序。

2024/4/4

LangChain-06 RAG With Source Document 检索增强生成

检索增强生成（RAG，Retrieval-Augmented Generation with Source Document）是一种结合检索与大语言模型生成的AI技术框架。其核心流程是先在向量数据库中检索相关文档片段...