标签: python

共 40 篇文章

大数据-215 sklearn KMeans 关键属性与评估:cluster_centers_、inertia_、轮廓系数选 K 实战

文章浏览阅读6.1k次,点赞30次,收藏32次。scikit-learn(sklearn)KMeans(2026)解释三个最常用对象:cluster_centers_(聚类中心)、inertia_(簇内平方和/Within-Cluster Sum of Squares)以及聚类评估指标 silhouette_score / silhouette_samples(轮廓系数,范围 [-1, 1])。inertia_随簇数 K 增大通常单调下降,适合做「肘部法则」参考,但不具备可比上界且强依赖特征尺度与维度;因此在选 K 时,更工程化的做法是:对 K 进行网格搜索并结合轮廓系数等指标综合评估。sklearn.cluster

大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/random_state 版本坑(scikit-learn 1.4+)

文章浏览阅读5.2k次,点赞32次,收藏26次。KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优 k,并解释「轮廓系数均值不等于最佳」的典型情况(簇内分裂、簇间重叠、离群点拉低)。同时梳理 KMeans 初始化相关参数:init(推荐默认 k-means++)、n_init(多次初始化取 inertia 最优)与 random_state(复现用)。重点指出 scikit-learn 1.4+(2024 年)起 n_init 默认变为 auto 的重大变化,结合实战代码与错误速查表,帮助读者避坑。

大数据-213 Python 手写 K-Means 聚类实战(鸢尾花 Iris 数据集):从距离函数到迭代收敛与坑点

文章浏览阅读4.5k次,点赞14次,收藏22次。Python K-Means 聚类实现:基于 NumPy 广播计算欧式距离平方和(distEclud),在特征范围内均匀采样初始化质心(randCent),并使用 Pandas 统一容器 result_set 记录「最短距离/当前簇/上次簇」,通过簇编号是否变化判断收敛,最终输出 centroids 与分簇结果。示例数据采用 Iris(鸢尾花)数据集(iris.txt)。工程化落地时重点关注:特征量纲统一(标准化/归一化)、随机种子与最大迭代次数、空簇导致质心数量缩减、groupby().mean()

大数据-214 K-Means 聚类实战:自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 速通

文章浏览阅读5.4k次,点赞22次,收藏18次。K-Means 聚类给出一套「可验证、可复现、可排错」的工程化流程:先用二维 testSet 数据集做算法验证(pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质心与聚类结果),再切换到 sklearn.cluster.KMeans 进行参数级理解与对照。核心关键词覆盖:K-Means、sklearn KMeans、n_clusters、init、n_init、max_iter、tol、labels_、predict、fit_predict、make_blobs、聚类

大数据-211 逻辑回归的 Scikit-Learn 实现:max_iter、分类方式与多元回归的优化方法

文章浏览阅读4.4k次,点赞10次,收藏19次。Scikit-Learn 中使用逻辑回归时,max_iter 控制最大迭代次数,影响模型的收敛速度和精度。如果训练未收敛,可能会收到警告提示需要增大 max_iter。不过,过高的迭代次数可能导致过拟合,影响测试集的表现。在二元逻辑回归中,multi_class 参数的选择也至关重要。OvR(One-vs-Rest)适用于大多数数据集,而 multinomial(多类)则适合需要更精确分类的场景。

大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑

文章浏览阅读5.8k次,点赞39次,收藏17次。聚类算法 K-Means,梳理监督学习与无监督学习的差异(是否需要标签 Y),并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概念「簇与质心」、迭代过程(分配样本→更新质心→收敛)、以及评价目标簇内误差平方和 Inertia。同时给出 K 值选择的工程方法(肘部法、轮廓系数、业务约束),并强调 K-Means 对初始化、尺度/量纲、离群点与非凸簇形状敏感。

大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法

逻辑回归(Logistic Regression, LR)是机器学习中重要的分类算法,广泛应用于二元分类任务,如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有"回归"二字,实则是一种分类方法。LR通过对数几率函数(Logistic Function)将预测值映射到0到1之间,计算样本属于某个类别的概率。为了优化LR模型,常用的算法是梯度下降法,它通过不断调整模型参数以最小化损失函数,找到最优解。在实际应用中,梯度下降需要调整步长、初始值,并进行标准化处理以提高收敛速度。本文深入探讨了逻辑回归的原理、...

大数据-207 如何应对多重共线性:使用线性回归中的最小二乘法时常见问题与解决方案

scikit-learn 进行线性回归时,如何应对最小二乘法中的多重共线性问题。多重共线性可能导致回归模型的不稳定性,表现为参数估计值的不稳定、方差增大以及解的不唯一。文章详细介绍了多重共线性的成因及其影响,并提出了几种改进的回归方法,如岭回归、Lasso回归等。

大数据-205 线性回归的机器学习视角:矩阵表示、SSE损失与最小二乘

线性回归(Linear Regression)的核心链路:用矩阵形式统一表示预测函数 y=Xw,将参数向量 w 作为唯一未知量;以损失函数刻画拟合误差,重点解释 SSE(残差平方和/误差平方和)作为回归任务的典型优化目标;通过最小二乘法(Least Squares)把"让 SSE 最小"转化为对参数求导并令一阶导为 0,从一元线性回归的直观拟合过渡到多元线性回归的矩阵推导与求解框架(正规方程形式)。内容覆盖:线性回归的机器学习表示、损失函数与优化目标、最小二乘法、SSE 推导、多元线性回归矩阵求解。

大数据-206 用 NumPy 矩阵乘法手写多元线性回归:正规方程、SSE/MSE/RMSE 与 R²

pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归(线性回归实现)。核心思路是将特征矩阵 X(包含一列全 1 作为截距)与标签 y 组成正规方程,通过 w=(X^TX)^{-1}X^Ty 直接求解参数权重。实现中重点检查 X^TX 是否满秩:若行列式为 0 则矩阵奇异,无法求逆,需要改用伪逆或最小二乘。评估部分给出残差平方和 SSE、均方误差 MSE、均方根误差 RMSE,以及判定系数 R²(1-\frac{SSE}{SST})的计算方式,并用 matplotlib 将预测直线与原始数据点可视化展示。

大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 到 min_impurity_decrease

scikit-learn 决策树剪枝(预剪枝)在工程落地中的常用参数:max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease 与 class_weight,解释它们如何影响 DecisionTreeClassifier 的过拟合、树规模与泛化能力,并给出用学习曲线(score vs 超参数)确定近似最优值的操作路径。重点提示版本差异:min_impurity_decrease 自 0.19 引入,用于替代_决策树 样本不均衡

大数据-204 混淆矩阵到ROC:不平衡二分类评估指标全梳理 sklearn

混淆矩阵(TP、FP、FN、TN)建立统一口径,解释 Accuracy、Precision(查准率)、Recall(查全率/敏感度)、F1 Measure 的业务含义:Precision 对应"误伤多数类"的成本,Recall 对应"捕获少数类"的能力,F1 用调和平均惩罚短板;并给出 ROC 曲线的坐标含义(FPR 假正率、TPR 真正率/召回率)与 AUC 的使用边界。工程落地以 scikit-learn 1.8.0(2025-12 发布)为准,覆盖 sklearn.metrics.confusion

大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点

"分裂"到"剪枝"的完整链路,解释其为何通常采用贪心算法形成"局部最优",以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征,因此引入信息增益比/增益率(Gain Ratio)做修正;CART常用二叉递归划分,分类树用基尼系数(Gini)度量不纯度,回归树常用方差/均方误差类指标。

大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合

DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026版)。重点解释 criterion 的选择:gini(基尼不纯度)、entropy 与 log_loss(信息增益/香农信息)在分裂质量度量上的差异,以及 splitter=best/random、random_state 对树结构稳定性的影响。可视化部分通过 sklearn.tree.export_graphviz 导出 DOT,并用 Python graphviz 包渲染

LangChain-26 Custom Agent 全面教程 从零构建自定义智能体

本文展示了如何在Python中使用Langchain库和GPT-4模型创建一个聊天代理,通过定义工具函数并将其与LLM集成,实现对用户输入中单词长度等信息的查询。

LangChain-24 AgentExecutor 全面详解

本文介绍了如何在Python中使用Langchain库进行文档检索,加载Web内容,配置OpenAIEmbeddings,并集成GPT-3.5-turbo模型进行问答。展示了如何创建代理执行器来处理用户查询并获取相关信息。

LangChain-25 ReAct框架详解 大语言模型推理与行动融合

文章介绍了大模型ReAct,一种利用逻辑推理和行动序列实现目标导向的框架,通过LLM进行决策和操作。核心组成部分包括Thought(思考)、Act(行动)和Obs(观察)。

LangChain-22 Text Embedding与FAISS实战详解

本文介绍了TextEmbedding在NLP中的关键作用,如何将文本转换为实数向量以表达语义关系,以及如何结合OpenAIEmbeddings和FAISS进行高效存储和查询。

LangChain-23 Vector AI语义检索系统 向量数据库+大语言模型

文章介绍了如何使用Chroma向量数据库处理和检索来自文档的高维向量嵌入,通过OpenAI和HuggingFace模型进行向量化,并展示了在实际场景中如何通过大模型进行问答和增强回复的应用实例。

LangChain-20 文档加载器 TextLoader、CSVLoader、PyPDFLoader、JSONLoader

本文介绍了LangChain库提供的多种文档加载器,如TextLoader、CSVLoader、DirectoryLoader等,展示了如何加载和处理各种格式的数据。

LangChain-21 Text Splitter 全面详解

文章浏览阅读7.5k次。本文介绍了LangChain库中的各种TextSplitters,包括基于字符、单词、HTML标签和编程语言的分割器,以及它们的应用场景。

LangChain-18 缓存机制详解 InMemoryCache与SQLiteCache

文章浏览阅读7.1k次。LangChain 提供完善的缓存机制,用于显著降低 LLM 调用延迟与成本。其核心包括 InMemoryCache(内存缓存)与 SQLiteCache(持久化缓存)。

LangChain-19 TokenUsage 回调函数详解

介绍了如何在Python中通过LangChain库集成OpenAI GPT-3模型,展示如何使用`get_openai_callback`函数来获取回调并执行请求。

LangChain-16 Using Tools 掌握 LLM 工具调用

文章浏览阅读6.1k次。LangChain 是当前最热门的 LLM 应用开发框架之一,专为构建智能助手、自动化流程和AI数据分析而设计。通过其强大的工具集成能力,开发者可轻松调用外部API,实现从搜索、计算到文件处理的多功能自动化。

LangChain-17 Function Calling AI函数调用的工作原理

Function Calling(函数调用)是大语言模型(如GPT-4、Claude、Gemini)与外部系统交互的核心技术。它让AI不仅能理解语言,还能执行任务,实现从文本对话到真实操作的跨越。

LangChain-14 OpenAI 内容审核 Moderation详解

内容审核(Moderation)是现代互联网平台安全与合规的核心环节,用于识别、过滤和管理用户生成内容(UGC),防止违法违规、低质或有害信息的传播。

LangChain-15 智能知识检索:AgentExecutor执行机制

文章浏览阅读7.1k次,点赞25次,收藏4次。本文介绍了如何通过Wikipedia搜索插件、AgentExecutor执行机制、上下文Token控制来构建智能知识检索系统。

LangChain-12 Routing By Semantic Similarity 语义相似度路由

文章浏览阅读6.4k次。本文介绍了一种使用大模型(如OpenAI)和Prompt模板的方法,通过计算查询与预设模板的相似度来处理程序设计中非预期输入的问题。

LangChain-13 Memory ConversationBufferMemory 对话记忆与上下文管理

本文介绍了如何利用LangChain库中的工具在Python中管理大模型的会话上下文,通过ConversationBufferMemory和RunnableLambda等组件,实现在连续对话中保存和加载用户信息,使大模型具有记忆功能。

LangChain-11 Code Writing FunctionCalling 自回归语言建模、大数计算局限与LangChain PythonREPL实战

文章介绍了如何使用GPT-3.5-Turbo模型编写Python代码来解决用户的抽象计算问题,如2+2和复杂的数学表达式,展示了模型在处理非标准问题上的潜力。

LangChain-09 Query SQL DB With RUN GPT 实现自然语言查询数据库

文章介绍了如何使用Python库如langchain和ChatOpenAI(GPT-3.5-turbo)结合SQLite数据库,创建一个程序来执行SQL查询并以自然语言形式返回结果。

LangChain-10 Agents Langchainhub使用指南

文章介绍了如何通过LangChainHub的Hub机制,利用Python代码轻松访问和共享Prompt。尽管该项目已有一年未更新,但作者仍看好其潜力,展示了如何安装依赖并使用一个模拟搜索引擎的工具来获取天气信息。

LangChain-07 Multiple Chains 多链串联

本文展示了如何使用LangChain库中的Runnable和Prompts,配合OpenAI模型,创建一个可以串联的对话链,以实现多阶段问题解答。通过实例演示了如何构建并执行一个包含两个步骤的查询过程。

LangChain-08 Query SQL DB 通过GPT自动查询SQL

本文介绍了如何在LangChain框架下,通过Python脚本导入ChinookSQLite数据库,利用GPT模型执行SQL查询,如计算员工数量。

LangChain-05 RAG 增强检索会话 Conversational

文章浏览阅读5.5k次。本文介绍了如何使用Langchain库中的工具,如OpenAIEmbeddings和ChatModels,结合文档检索技术,创建一个基于对话历史生成回答的程序。

LangChain-06 RAG With Source Document 检索增强生成

检索增强生成(RAG,Retrieval-Augmented Generation with Source Document)是一种结合检索与大语言模型生成的AI技术框架。其核心流程是先在向量数据库中检索相关文档片段,再利用生成模型生成高质量回答,并标注信息来源。

LangChain-03 astream_events 流输出 FAISS 实战

本文介绍如何使用DocArrayInMemorySearch对文本数据进行向量化,并结合OpenAIEmbeddings和GPT-3.5模型,实现在给定上下文的情况下检索相关信息并生成回答。

LangChain-04 RAG Retrieval-Augmented Generation 检索增强生成

本文详细讲解了如何在LangChain中利用RAG技术,结合OpenAI的GPT-3.5模型,通过检索和生成提高文本生成质量。给出了安装和使用代码实例。

LangChain-01 入门指南:快手上手 Hello World

本文介绍了如何使用LangChain库,结合OpenAI API和GPT-3.5-turbo模型,创建一个模板来生成关于特定主题(如猫)的笑话。作者展示了如何安装依赖、设置API Key并实际操作来获取幽默输出。

LangChain-02 JsonOutputParser 解析与流式 JSON 数据处理全攻略

文章介绍了如何在Python环境中安装并使用Langchain和OpenAIAPI,通过异步函数获取指定国家及其人口数据,并展示了逐步增加人口值的过程。