Python学习第84天:朴素贝叶斯算法 发布时间:2026/6/15 13:13:09 Python学习100天(从入门到精通系列文章)文章目录Python学习100天(从入门到精通系列文章)前言一、贝叶斯定理:从航班延误险说起1.1 一个有趣的案例1.2 贝叶斯定理的数学表达二、朴素贝叶斯:核心思想与算法原理2.1 "朴素"从何而来2.2 训练阶段2.3 预测阶段三、实战案例:从零实现朴素贝叶斯分类器3.1 加载鸢尾花数据集3.2 训练函数实现3.3 预测函数实现3.4 使用 scikit-learn 的朴素贝叶斯四、常见错误与避坑指南4.1 错误一:忽略特征独立性假设的局限性4.2 错误二:连续特征未做离散化处理4.3 错误三:零概率问题未处理参考链接总结前言在之前的文章中,我们学习了K最近邻、决策树和随机森林等分类算法。今天我们要介绍一种基于概率论的分类方法——朴素贝叶斯算法。贝叶斯分类器以贝叶斯定理为基础,因其逻辑简单、计算高效而广泛应用于文本分类、垃圾邮件检测、情感分析等场景。本文将带你从贝叶斯定理的基本原理出发,逐步深入到朴素贝叶斯的算法实现,并通过鸢尾花数据集的实战案例,帮助你彻底掌握这一经典算法。适合有一定Python基础、正在系统学习机器学习的读者。一、贝叶斯定理:从航班延误险说起1.1 一个有趣的案例在介绍贝叶斯定理之前,我们先讲一个真实的故事:从2015年到2020年期间,某位李姓女士凭借自己对航班是否会延误的分析,购买了大约900次飞机延误险并获得延误赔偿,累计获得理赔金高达300多万元,真可谓"航班延误,发家致富"。那么,李女士是怎么决定要不要购买延误险的呢?航班延误最主要的原因就是天气(包括起飞地和降落地的天气)、机场(起飞机场和降落机场)和航司。由于李女士有过航空服务类工作的经历,有获得机场和航司相关数据的途径,集齐相关的数据再利用贝叶斯定理,她就可以计算出当前航班延误的概率并决定是否购买延误险。1.2 贝叶斯定理的数学表达贝叶斯定理是概率论中的一个重要定理,它描述 相关新闻 PDF转CAD 3种方法实测:手动描线/AI矢量化/在线工具谁更快更准 前言甲方发来一套PDF施工图,要求改几个管道走向。打开PDF,选中一根管想改——选中的是碎片化线条,不是管对象。想做标注修改?标注是文字和线的组合,不是关联尺寸。想复制一个区域?复制进CAD全是断线。PDF转… 2026/6/15 13:13:09 Agent 从 demo 到上线,我列了张部署前自查清单(踩坑攒的) demo 跑通的那一刻最容易飘——我也飘过,直接发出去,然后被线上各种问题教做人。后来我把每次上线前要确认的东西攒成了一张清单,这篇就把清单贴出来。形式就是逐条过,你照着勾,能少摔几次。 上线前自查 12 条 稳定性 □ 上游接口/工具挂了,Agent 会优雅降级还是直接卡死?我… 2026/6/15 12:19:54 C标准库核心函数深度解析:从内存对齐到安全编程实践 1. 项目概述:从手册到实战,深度解析C标准库核心函数在C语言的世界里摸爬滚打了十几年,我越来越觉得,真正区分新手和老手的,往往不是对复杂算法的掌握,而是对基础库函数那份“知其然,更知其所以然… 2026/6/15 12:19:54 最新新闻 AndroidIDE终极指南:在手机上打造专业开发环境的完整教程 AndroidIDE终极指南:在手机上打造专业开发环境的完整教程 【免费下载链接】AndroidIDE AndroidIDE is an IDE for Android to develop full featured Android apps. 项目地址: https://gitcode.com/gh_mirrors/an/AndroidIDE 你是否想过在手机或平板上就能开… 2026/6/15 16:19:55 多尺度地理加权回归(MGWR):让您的空间数据分析更精准的5个关键步骤 多尺度地理加权回归(MGWR):让您的空间数据分析更精准的5个关键步骤 【免费下载链接】mgwr Multiscale Geographically Weighted Regression (MGWR) 项目地址: https://gitcode.com/gh_mirrors/mg/mgwr 面对复杂多变的空间数据… 2026/6/15 16:19:55 Windows 7远程桌面漏洞CVE-2019-0708深度解析:除了打补丁,我们还能做什么? Windows 7远程桌面漏洞CVE-2019-0708立体防御指南:从补丁到纵深防护当微软在2019年5月发布那个紧急安全公告时,许多运维团队的周末计划被打乱了。CVE-2019-0708这个看似普通的漏洞编号背后,隐藏着一个足以让任何系统管理员夜不能寐的事实&… 2026/6/15 16:19:55 嵌入式DMA仲裁机制深度解析:轮询与EDF在MSC8251中的实战应用 1. 项目概述:DMA仲裁机制的核心价值在嵌入式系统,尤其是那些对数据吞吐量和实时性有严苛要求的领域,比如音视频处理、网络通信或者高速数据采集,直接内存访问(DMA)技术是解放CPU、提升系统效率的“王牌”。… 2026/6/15 16:19:55 5大优势掌握Vulkan图形编程:从零到高性能渲染实战 5大优势掌握Vulkan图形编程:从零到高性能渲染实战 【免费下载链接】VulkanTutorialCN Vulkan中文教程 项目地址: https://gitcode.com/gh_mirrors/vu/VulkanTutorialCN 想要彻底摆脱OpenGL的性能瓶颈,实现跨平台高性能渲染吗?VulkanTu… 2026/6/15 16:19:55 做好内容可提取性优化,你的AI引用率可以翻倍 概述你花了三个月把一篇核心文章推到Google首页,排名稳居前三。然后你用ChatGPT搜了同个问题——它引用了别人的内容,连你的链接都没出现过。你是不是百思不得其解?问题不在你的SEO,而在于你的内容像一锅乱炖的好汤——AI引擎要的… 2026/6/15 15:19:55 日新闻 【力扣100题】94.买卖股票的最佳时机 题目描述 给定一个数组 prices,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票,并选择在未来的某一个不同的日子卖出该股票。返回你能获取的最大利润。如果不能获取任何利润,返回 0。 示例 1&#… 2026/6/15 0:19:49 FPGA实战(13):基于FPGA的CIC滤波器设计与实现 1. 摘要 在数字信号处理系统中,CIC(级联积分梳状)滤波器因其结构简单、无需乘法器、处理速率高等优点,被广泛应用于数字下变频(DDC)和数字上变频(DUC)中的抽取与插值环节。本文基于X… 2026/6/15 0:19:50 【力扣100题】97.划分字母区间 题目描述 给你一个字符串 s,要把这个字符串划分为尽可能多的片段,同一字母最多出现在一个片段中。例如 ababcc 能够被分为 ["abab", "cc"]。 示例 1: 输入:s "ababcbacadefegdehijhklij" 输出&… 2026/6/15 0:19:50 周新闻 告别ReflexW?Geolitix软件实战:GPR数据处理中那些被忽视的“宝藏”功能盘点 Geolitix软件实战:GPR数据处理中那些被忽视的“宝藏”功能盘点在GPR(探地雷达)数据处理领域,ReflexW长期以来一直是行业标准工具,但近年来新锐软件Geolitix凭借其独特的功能设计和用户友好的界面逐渐崭露头角。作为一名… 2026/6/15 9:52:40 告别等待:集成OpenVINO预处理API,让你的YOLOv8实时检测再快一步 解锁YOLOv8终极性能:OpenVINO预处理API实战指南在实时目标检测领域,每一毫秒的延迟降低都意味着用户体验的显著提升。当我们谈论YOLOv8这类尖端模型时,开发者往往将注意力集中在模型结构优化和硬件加速上,却忽略了一个关键的性能黑… 2026/6/15 9:52:47 手把手教你用Python搞定数学建模:从数据清洗到模型预测(以‘双碳’建筑碳排放为例) Python数学建模实战:从碳排放数据清洗到预测模型构建数学建模竞赛中,数据处理和模型构建往往是参赛者最头疼的环节。本文将以建筑碳排放分析为案例,带你用Python完整实现从原始数据到预测模型的全流程。不同于理论讲解,我们将聚焦… 2026/6/15 1:22:36 月新闻 仅剩47小时!Gemini 2.5欧洲语言模型权重微调窗口即将关闭:3个轻量级LoRA适配器+1套验证集,零代码快速部署 更多请点击: https://codechina.net 第一章:Gemini 2.5欧洲语言翻译能力演进与窗口期战略意义 Gemini 2.5在欧洲语言支持方面实现了质的跃升,尤其在德语、法语、西班牙语、意大利语及葡萄牙语的长上下文跨语言对齐、术语一致性保持和文化语境… 2026/6/15 9:56:04 【Gemini客户反馈分析实战指南】:20年AI产品专家亲授3大高价值洞察模型与落地工具包 更多请点击: https://kaifayun.com 第一章:Gemini客户反馈分析的核心价值与演进脉络 在AI产品持续迭代的背景下,Gemini模型的客户反馈已从早期零散的体验吐槽,逐步演变为结构化、多模态、实时驱动的关键决策依据。其核心价值不仅… 2026/6/14 11:30:16 Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 更多请点击: https://intelliparadigm.com 第一章:Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 我们对2024年6月1日–6月28日期间App Store与Google Play中含“Gemini”关键词的12,743条低分&a… 2026/6/15 2:56:14
PDF转CAD 3种方法实测:手动描线/AI矢量化/在线工具谁更快更准 前言甲方发来一套PDF施工图,要求改几个管道走向。打开PDF,选中一根管想改——选中的是碎片化线条,不是管对象。想做标注修改?标注是文字和线的组合,不是关联尺寸。想复制一个区域?复制进CAD全是断线。PDF转… 2026/6/15 13:13:09
Agent 从 demo 到上线,我列了张部署前自查清单(踩坑攒的) demo 跑通的那一刻最容易飘——我也飘过,直接发出去,然后被线上各种问题教做人。后来我把每次上线前要确认的东西攒成了一张清单,这篇就把清单贴出来。形式就是逐条过,你照着勾,能少摔几次。 上线前自查 12 条 稳定性 □ 上游接口/工具挂了,Agent 会优雅降级还是直接卡死?我… 2026/6/15 12:19:54
C标准库核心函数深度解析:从内存对齐到安全编程实践 1. 项目概述:从手册到实战,深度解析C标准库核心函数在C语言的世界里摸爬滚打了十几年,我越来越觉得,真正区分新手和老手的,往往不是对复杂算法的掌握,而是对基础库函数那份“知其然,更知其所以然… 2026/6/15 12:19:54
AndroidIDE终极指南:在手机上打造专业开发环境的完整教程 AndroidIDE终极指南:在手机上打造专业开发环境的完整教程 【免费下载链接】AndroidIDE AndroidIDE is an IDE for Android to develop full featured Android apps. 项目地址: https://gitcode.com/gh_mirrors/an/AndroidIDE 你是否想过在手机或平板上就能开… 2026/6/15 16:19:55
多尺度地理加权回归(MGWR):让您的空间数据分析更精准的5个关键步骤 多尺度地理加权回归(MGWR):让您的空间数据分析更精准的5个关键步骤 【免费下载链接】mgwr Multiscale Geographically Weighted Regression (MGWR) 项目地址: https://gitcode.com/gh_mirrors/mg/mgwr 面对复杂多变的空间数据… 2026/6/15 16:19:55
Windows 7远程桌面漏洞CVE-2019-0708深度解析:除了打补丁,我们还能做什么? Windows 7远程桌面漏洞CVE-2019-0708立体防御指南:从补丁到纵深防护当微软在2019年5月发布那个紧急安全公告时,许多运维团队的周末计划被打乱了。CVE-2019-0708这个看似普通的漏洞编号背后,隐藏着一个足以让任何系统管理员夜不能寐的事实&… 2026/6/15 16:19:55
嵌入式DMA仲裁机制深度解析:轮询与EDF在MSC8251中的实战应用 1. 项目概述:DMA仲裁机制的核心价值在嵌入式系统,尤其是那些对数据吞吐量和实时性有严苛要求的领域,比如音视频处理、网络通信或者高速数据采集,直接内存访问(DMA)技术是解放CPU、提升系统效率的“王牌”。… 2026/6/15 16:19:55
5大优势掌握Vulkan图形编程:从零到高性能渲染实战 5大优势掌握Vulkan图形编程:从零到高性能渲染实战 【免费下载链接】VulkanTutorialCN Vulkan中文教程 项目地址: https://gitcode.com/gh_mirrors/vu/VulkanTutorialCN 想要彻底摆脱OpenGL的性能瓶颈,实现跨平台高性能渲染吗?VulkanTu… 2026/6/15 16:19:55
做好内容可提取性优化,你的AI引用率可以翻倍 概述你花了三个月把一篇核心文章推到Google首页,排名稳居前三。然后你用ChatGPT搜了同个问题——它引用了别人的内容,连你的链接都没出现过。你是不是百思不得其解?问题不在你的SEO,而在于你的内容像一锅乱炖的好汤——AI引擎要的… 2026/6/15 15:19:55
【力扣100题】94.买卖股票的最佳时机 题目描述 给定一个数组 prices,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。你只能选择某一天买入这只股票,并选择在未来的某一个不同的日子卖出该股票。返回你能获取的最大利润。如果不能获取任何利润,返回 0。 示例 1&#… 2026/6/15 0:19:49
FPGA实战(13):基于FPGA的CIC滤波器设计与实现 1. 摘要 在数字信号处理系统中,CIC(级联积分梳状)滤波器因其结构简单、无需乘法器、处理速率高等优点,被广泛应用于数字下变频(DDC)和数字上变频(DUC)中的抽取与插值环节。本文基于X… 2026/6/15 0:19:50
【力扣100题】97.划分字母区间 题目描述 给你一个字符串 s,要把这个字符串划分为尽可能多的片段,同一字母最多出现在一个片段中。例如 ababcc 能够被分为 ["abab", "cc"]。 示例 1: 输入:s "ababcbacadefegdehijhklij" 输出&… 2026/6/15 0:19:50
告别ReflexW?Geolitix软件实战:GPR数据处理中那些被忽视的“宝藏”功能盘点 Geolitix软件实战:GPR数据处理中那些被忽视的“宝藏”功能盘点在GPR(探地雷达)数据处理领域,ReflexW长期以来一直是行业标准工具,但近年来新锐软件Geolitix凭借其独特的功能设计和用户友好的界面逐渐崭露头角。作为一名… 2026/6/15 9:52:40
告别等待:集成OpenVINO预处理API,让你的YOLOv8实时检测再快一步 解锁YOLOv8终极性能:OpenVINO预处理API实战指南在实时目标检测领域,每一毫秒的延迟降低都意味着用户体验的显著提升。当我们谈论YOLOv8这类尖端模型时,开发者往往将注意力集中在模型结构优化和硬件加速上,却忽略了一个关键的性能黑… 2026/6/15 9:52:47
手把手教你用Python搞定数学建模:从数据清洗到模型预测(以‘双碳’建筑碳排放为例) Python数学建模实战:从碳排放数据清洗到预测模型构建数学建模竞赛中,数据处理和模型构建往往是参赛者最头疼的环节。本文将以建筑碳排放分析为案例,带你用Python完整实现从原始数据到预测模型的全流程。不同于理论讲解,我们将聚焦… 2026/6/15 1:22:36
仅剩47小时!Gemini 2.5欧洲语言模型权重微调窗口即将关闭:3个轻量级LoRA适配器+1套验证集,零代码快速部署 更多请点击: https://codechina.net 第一章:Gemini 2.5欧洲语言翻译能力演进与窗口期战略意义 Gemini 2.5在欧洲语言支持方面实现了质的跃升,尤其在德语、法语、西班牙语、意大利语及葡萄牙语的长上下文跨语言对齐、术语一致性保持和文化语境… 2026/6/15 9:56:04
【Gemini客户反馈分析实战指南】:20年AI产品专家亲授3大高价值洞察模型与落地工具包 更多请点击: https://kaifayun.com 第一章:Gemini客户反馈分析的核心价值与演进脉络 在AI产品持续迭代的背景下,Gemini模型的客户反馈已从早期零散的体验吐槽,逐步演变为结构化、多模态、实时驱动的关键决策依据。其核心价值不仅… 2026/6/14 11:30:16
Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 更多请点击: https://intelliparadigm.com 第一章:Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 我们对2024年6月1日–6月28日期间App Store与Google Play中含“Gemini”关键词的12,743条低分&a… 2026/6/15 2:56:14