趣书网

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
大道逍遥行

大道逍遥行

红尘之中的悲欢离合,江湖之中的腥风血雨,庙堂之上的尔虞我诈。无论你的道路荣华富贵也好,碌碌无为也罢。这庙堂之危,这江湖之险,这红尘之苦,人生这一大道,只要乐得逍遥就好。...

朝朝向扶光

朝朝向扶光

京城贵女颜初瑶出自于宣远侯府,姑母为当今皇后,外人看来侯府容得圣宠。但身为宣远侯府长女颜初瑶清楚的知晓,侯府已经是“金玉其外,败絮其中”了:姑母贵为皇后但无子嗣,祖父身局高位却无卓越的后辈,已是即将走向衰败的局面。大雍二十八年九月,永安帝下诏为年已二十四却子嗣单薄的东宫,楚承时择选世家贵女入东宫。这无疑是给侯府迎来......

抗战铁军

抗战铁军

关于抗战铁军:随身携带“女娲”系统穿越到抗战时代,叶丰建立丰功伟绩。淞沪抗战,日军中将魂归西。南京保卫战,元凶授首。中华大地,铁军驰骋,日寇闻风丧胆。这是贝壳第二本军事小说,大家放心收藏。...

商末三国志

商末三国志

“申公豹是我的把兄弟!”“商纣王是我的老丈人!”“姜子牙是我的老父亲!”……大学毕业生姜林,在赶赴工作单位就职的途中,因车祸穿越至三千年前商末周初时期华夏民族的边陲之地。初到之时便指挥当地村民成功抵御鬼方抢粮马队的攻击,借此机会被推举为村落首领,开始带领村民大力发展生产。此后因种种因缘际会,结识申公豹,二人称兄道弟......

日夜缠她

日夜缠她

《日夜缠她》作者:福喜喜简介已完结【追妻火葬场+成年人的爱情+非双C】避雷!!!本书有大虐!先虐女主再虐男主!再宠宠宠!!看不了虐的请点“X”,谢谢~~~~一场相遇,他对她上瘾。可是她心里有喜欢的初恋。为了驱赶初恋在她心里的位置,他手段卑劣。“南宋,你是我夜北冥的女人,你的心,只能给我。”“南宋,你从头发丝到脚趾,都是我夜北冥的,谁碰,谁...

天下第一狱

天下第一狱

天下第一狱情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,天下第一狱-外卖员牛叔-小说旗免费提供天下第一狱最新清爽干净的文字章节在线阅读和TXT下载。...