目錄機(jī)器學(xué)習(xí)建模步驟 你知道嗎 使用線性模型進(jìn)行機(jī)器學(xué)習(xí)的流程是什么? 常用機(jī)器學(xué)習(xí)方法有哪些? 什么是機(jī)器學(xué)習(xí)流程的模塊 機(jī)器學(xué)習(xí)的過程可以分為
機(jī)器學(xué)習(xí)是一個流程性很強(qiáng)的工作,其流程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、特征工程、模型融合、模型調(diào)優(yōu)、模型持久化等。
機(jī)器學(xué)習(xí)的概念:
機(jī)器學(xué)習(xí)是人工智能的一個子集。這項技術(shù)的主要任務(wù)是指導(dǎo)計算機(jī)從數(shù)據(jù)中學(xué)習(xí),然后利用經(jīng)驗來改善自身的性能,不需要進(jìn)行明確的編程。在機(jī)器學(xué)習(xí)中,算法會不斷進(jìn)行訓(xùn)練,從大型數(shù)據(jù)集中發(fā)譽(yù)悄現(xiàn)模式和相關(guān)性,然后根據(jù)數(shù)據(jù)分析結(jié)果做出最佳決策和預(yù)測。
機(jī)器學(xué)習(xí)應(yīng)用具有自我演進(jìn)能力,它們獲得的數(shù)據(jù)越多,準(zhǔn)確性會越高。機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用無處不在,比如我們的家居生活、購物車、娛樂媒體以及醫(yī)療保健等。
機(jī)器學(xué)習(xí)算法能夠識別模式和相關(guān)性,這意味著它們可以快速準(zhǔn)確地分析自身的投資回報率。對于投資機(jī)器學(xué)習(xí)技術(shù)的企業(yè)來說,他們可碼頃以利用這個特性,快速評估采用機(jī)器學(xué)習(xí)技術(shù)對運(yùn)營的影響。
機(jī)器學(xué)習(xí)它是一門多領(lǐng)域交叉學(xué)科,專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知慶模渣識結(jié)構(gòu)使之不斷改善自身的性能。
機(jī)器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學(xué)知識,近似理論知識和復(fù)雜算法知識,使用計算機(jī)作為并致力于真實實時的模擬人類學(xué)習(xí)方式,并將現(xiàn)有內(nèi)容進(jìn)行知識結(jié)構(gòu)劃分來有效提高學(xué)習(xí)效率。
數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是人工智能的一個分支,也是機(jī)器學(xué)習(xí)流程的滾盯掘模塊,因此是數(shù)據(jù)挖則神掘。機(jī)器是由各種金大核屬,非金屬部件組裝成的裝置,消耗能源,可以運(yùn)轉(zhuǎn)、做功。
機(jī)器學(xué)習(xí)流程的模塊純伍升包括以下幾個部分:
數(shù)據(jù)預(yù)處理: 包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取和數(shù)據(jù)規(guī)范化等。
模型選擇: 包括選擇機(jī)器學(xué)習(xí)算法、調(diào)整超參數(shù)等。
訓(xùn)練模型: 包括對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練、模型調(diào)優(yōu)等。
模型評做老估: 包橘碰括對模型進(jìn)行評估、確定模型的性能指標(biāo)等。
模型應(yīng)用: 包括將模型應(yīng)用到實際問題中、監(jiān)控模型的性能等。
1、實際問題抽象成數(shù)學(xué)問題:這里的抽象成枝敗數(shù)學(xué)問題,指的我們明確我們可以獲得什么樣的數(shù)據(jù),目標(biāo)是一個分類還是回歸或者是聚類的問題,如果都不是的話,如果劃歸為其中的某類問題。
2、獲取數(shù)據(jù):獲取數(shù)據(jù)包括獲取原始數(shù)據(jù)以及從原始數(shù)據(jù)中經(jīng)過特征工程從原始數(shù)據(jù)中提取訓(xùn)練、測試數(shù)據(jù)。機(jī)器學(xué)習(xí)比賽中原始數(shù)據(jù)都是直接提供的,但是實際問題需要自己獲得原始數(shù)據(jù)。“ 數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個上限”,可見數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用。總的來說數(shù)據(jù)要有具有“代表性”,對于分類問題,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距。 對評估數(shù)據(jù)的量級,樣本數(shù)量、特征數(shù)量,估算訓(xùn)練模型對內(nèi)存的消耗。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本、降維或者使用分布式機(jī)器學(xué)習(xí)。
3、特征工程:特征工程包括從原始數(shù)據(jù)中特征構(gòu)建、特征提取、特征選擇、特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力,往往能夠使得算法的效果和性能得到顯著的提升,有時能使簡單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時間就花在特征工程上面,是機(jī)器學(xué)習(xí)非常基礎(chǔ)而又必備的步驟。數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、篩選顯著特征、摒棄非顯著特征等。訓(xùn)練模型、診斷、調(diào)優(yōu)模型診斷中至關(guān)重要的是判斷過擬合、欠擬合,常見的方法是繪制學(xué)習(xí)曲線,交叉驗證。通過增加訓(xùn)練的數(shù)據(jù)量、降低模型復(fù)雜度來降低過擬合的風(fēng)險,提高特征的數(shù)量和質(zhì)量、增加模型復(fù)雜來防止欠擬合。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷,這是一個反復(fù)迭代不斷逼近的過程,需要不斷的嘗試,進(jìn)而達(dá)到最優(yōu)的狀態(tài)。
4、模型驗證、誤差分析:通過測試數(shù)據(jù),驗證模型的有效性,觀察誤差樣本,分析誤差產(chǎn)生的原因,往往能使得我們找到提升算法性能的突破點(diǎn)。誤差分析主要是分析出誤差來源與數(shù)據(jù)、特征、算法。
5、模型融合:提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程、清洗、預(yù)處理、采樣)和后端的模型融合。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見,基本都能使得效果有一定的提升。羨橡
6、兄搭旁上線運(yùn)行:這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導(dǎo)向,模型在線上運(yùn)行的效果直接決定模型的成敗。 不單純包括其準(zhǔn)確程度、誤差等情況,還包括其運(yùn)行的速度(時間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性是否可接受。
機(jī)器學(xué)習(xí)中常用的方法有:(1) 歸納學(xué)習(xí)符號歸納學(xué)習(xí):典型的符號歸納學(xué)習(xí)有示例學(xué)習(xí)、決策樹學(xué)習(xí)。函數(shù)歸納學(xué)習(xí)(發(fā)現(xiàn)學(xué)習(xí)):典型的函數(shù)歸納學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、示例學(xué)習(xí)、發(fā)現(xiàn)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)。(2) 演繹學(xué)習(xí)(3) 類比學(xué)習(xí):典型的類比學(xué)習(xí)有案例(范例)學(xué)習(xí)。(4) 分析學(xué)習(xí):典型的分析學(xué)習(xí)有解釋學(xué)習(xí)、宏扒型轎操作學(xué)習(xí)。擴(kuò)展資料:機(jī)器學(xué)習(xí)常見算法:1、決策樹算法決策樹及其變種是一類將輸入空間分成不同的區(qū)域,每個區(qū)域有獨(dú)立參數(shù)的算法。決策樹算法充分利用了樹形模型,根節(jié)點(diǎn)到一個葉子節(jié)點(diǎn)是一條分類的路徑規(guī)則,每個葉子節(jié)點(diǎn)象征一個判斷類別。先將樣本分成不同的子集,再進(jìn)行分割遞推,直至每個子集得到同類型的樣本,從根節(jié)點(diǎn)開始測試,到子樹再到葉子節(jié)點(diǎn),即可得出預(yù)測類別。此方法的特點(diǎn)是結(jié)構(gòu)簡單、處理數(shù)據(jù)效率較高。 2、樸素貝葉斯算法樸素貝葉斯算法是一種分類算法。它不是單一算法,而是一系列算法,它們都有一個共同的原則,即被分類的每個特征都與任何其他特征的值無關(guān)。樸素貝葉斯分類器認(rèn)為這些“特征”中的每一個都獨(dú)立地貢獻(xiàn)概率,而不管特征之間的任何相關(guān)性。然而,特征并不總是獨(dú)立的,這通常被視為樸素貝葉斯算法的缺點(diǎn)。簡而言之,樸素貝葉斯算法允許我們使用概率給出一組特征來預(yù)測一個類。與其他常見的分類方法相比,樸素貝葉斯算法需要的訓(xùn)練很少。在進(jìn)行預(yù)測之前必須完成的唯一工作是找到特征的個體概率分布的參數(shù),這通常可以快速且確定地完成。這意味著即使對于高維數(shù)據(jù)點(diǎn)或大量數(shù)據(jù)點(diǎn),樸素貝葉斯分類器也可以表現(xiàn)良好。 3、支持向量機(jī)算法基本思想可概括如下:首先,要利用一種變換將空間高維化,當(dāng)然這種變換是非線性的,然后,在新的復(fù)雜空租散間取最優(yōu)線性分類表面。由此種方式獲得的分類函數(shù)在形式上類似于神經(jīng)網(wǎng)絡(luò)算法。支持向量機(jī)是統(tǒng)計學(xué)習(xí)領(lǐng)域中一個代表性算法,但它與傳統(tǒng)方式的思維方法很不同,輸入空間、提高維度從而將問題簡短化,使問題歸結(jié)為線性可分的經(jīng)典解問題。支持向量機(jī)應(yīng)春肆用于垃圾郵件識別,人臉識別等多種分類問題。參考資料:-機(jī)器學(xué)習(xí)(多領(lǐng)域交叉學(xué)科)