1. 什么是參數估計參數估計是在樣本統(tǒng)計量概率分布的基礎上,利用樣本的信息推斷所關心的總體參數的過程。
① 基于樣本統(tǒng)計量的概率分布:如前所述,樣本統(tǒng)計量是一個隨機變量,有其自身的概率分布、期望、方差等。在分析一個樣本集時,需要基于此統(tǒng)計學知識;② 利用樣本的信息:樣本是我們唯一有的數據,一切的統(tǒng)計基于樣本數據;③ 推斷所關心的總體參數是目的。
比如,利用樣本的均值推斷總體的均值,利用樣本的方差推斷總體的方差。PS1:利用樣本的均值作為總體均值的估計,是直觀且不需要解釋的。
樣本統(tǒng)計量(此處指均值)的概率分布,是為這個估計提供置信度等信息的。PS2:利用樣本均值去估計總體均值時,總體均值是一個待被估計的總體參數,可以用\theta 表示。
樣本均值叫做估計量,用\hat{\theta } 表示,是一個統(tǒng)計量;實際采集了一個樣本算出了其平均值,這叫一個估計值2. 兩種基本的估計方法2.1 點估計點估計指基于一個樣本算出的估計量的一個具體取值,直接作為總體參數的估計值 的估計方式。這個話說的很車轱轆,舉個栗子,當我要估計中國人的平均身高時,我采集了一個樣本,其包含了1W個人的身高狀況,然后我算出來均值,并用這個均值作為全體中國人平均身高的估計值。
就是這么簡單。點估計的優(yōu)點是很直觀易理解,給小學生講一下應該也能聽懂。
不好懂的是點估計的缺點:點估計無法給出估計的可靠性。繼續(xù)舉栗子,當我們取了1W個平均身高并算出平均值是1.68時,我們并不能說,全國人民的平均身高100%就是1.68。
事實上,平均身高可能是1.86,就算這樣我們也仍然有可能恰好采到了一個平均身高只有1.68的樣本,只不過這個概率比較小而已。再說得反直覺一點,全國人民的平均身高恰恰好好就是1.68的可能性其實是非常低的,但落在[1.67,1.69]的可能性就比較大,至少比落在[1.80, +]的可能性是大多了。
問題就在于,點估計無法定量的給出這些區(qū)間以及對應的可能性大小。所以才有了更專業(yè)一點的區(qū)間估計。
矩估計法 用樣本矩代替相應的總體矩,如用樣本均值估計總體均值。
這稱為Pearson替換原理。最小二乘法 為了選出使得模型輸出與系統(tǒng)輸出yt盡可能接近的參數估計值,可用模型與系統(tǒng)輸出的誤差的平方和來度量接近程度。
使誤差平方和最小的參數值即為所求的估計值。極大似然法 選擇參數θ,使已知數據Y在某種意義下最可能出現(xiàn)。
某種意義是指似然函數P(Y│θ)最大,這里P(Y│θ)是數據Y的概率分布函數。與最小二乘法不同的是,極大似然法需要已知這個概率分布函數P(Y│θ)。
在實踐中這是困難的,一般可假設P(Y│θ)是正態(tài)分布函數,這時極大似然估計與最小二乘估計相同。 。
方法/步驟 1 創(chuàng)建工作文件,在file菜單中,依次點擊new->workfile。
2 這時彈出Workfile Create對話框,選擇數據類型并填入起止日期,如下圖所示。 3 點擊ok,工作文件建立完畢 4 創(chuàng)建和編輯數據,在命令窗口直接輸入data Y X,然后回車。
5 彈出Group窗口,將數據填入其中。 6 在命令行輸入ls Y C X,然后回車。
7 彈出Equation窗口,得到參數估計結果,該窗口中包含截距項、X前面的系數,標準誤差、t統(tǒng)計量、p值、可決系數等。 8 點擊Equation窗口中的Resid,可以得到模型的擬合圖和殘差圖。
9 如何查看模型的方程式呢?在Equation窗口中依次點擊proc->Make Model,彈出Model窗口。 10 在Model窗口中依次點擊View->Source Text,即可得到我們建立的數學模型的方程。
去百度文庫,查看完整內容>
內容來自用戶:xiaobaizhua2
第三章參數估計
統(tǒng)計推斷就是推斷總體分布,可以用經驗分布估計理論分布,且增多樣本可以逼近所要求的精度,但是這需要大量樣本,現(xiàn)實中難以實現(xiàn)。
實際問題總是認為總體分布形式已知,而是不知其中幾個參數,因此估計問題變?yōu)槿绾喂烙嬤@幾個未知參數,分成兩大類:點估計和區(qū)間估計。
§3.1點估計
設母體的分布函數形式已知,為待估未知參數向量,樣本值為,點估計就是構造一個適當的統(tǒng)計量作為待估未知參數的近似值,統(tǒng)計量簡單說就是樣本值的函數,但是要求不可依賴未知參量,能夠反映未知參量的信息,不同的未知參量對應了不同的統(tǒng)計量。如何構造呢?這里經典方法是矩估計方法和最大似然估計兩種辦法。
矩估計:子樣的k階原點矩,母體的k階原點矩,假設=,那么我們就列L個方程=,求解。
例子:混合高斯分布
給你樣本值為,來估計未知參數。
解釋:混合高斯分布的均值為零,二階矩為
我們只有樣本,那么就用樣本二階矩代替,,那么得出未知參數的估計值為
最大似然估計:比如連續(xù)分布的母體概率密度函數為,為待估未知參數向量,樣本值為,對于各樣本值進行排序,總能找到,那么發(fā)生在區(qū)間的概率
我們將上述發(fā)生概率最大的參數作為真實值的估計,那么就是使得似然函數3解釋:?
區(qū)間估計的概念
區(qū)間估計是根據樣本統(tǒng)計量,利用抽樣分布的原理,用概率表示總體參數可能落在某數值區(qū)間之內的推算方法。
區(qū)間估計的原理
區(qū)間估計的理論依據是抽樣分布理論?,F(xiàn)在以總體平均數區(qū)間估計為例,說明區(qū)間估計的基本原理。
總體參數區(qū)間估計的計算方法
由于樣本容量、總體分布狀態(tài)等多方面因素對總體參數估計的可信度都會產生不同程度的影響,因此,在進行總體參數估計時要針對不同情況區(qū)別對待。
大樣本總體平均數的區(qū)間估計
要對總體平均數μ做出比較準確的估計,就要合理地確定平均數樣本分布的標準差即標準誤。事實上,標準誤與樣本容量和總體分布的標準差關系密切。當樣本容量n大于30的時候,樣本標準差S與總體標準差σ相差不會很大,一般就可以利用S來做σ的估計值。同時,隨著樣本容量的增加,樣本平均數與總體平均數的差距就會縮小,即標準誤就會減小。
聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.033秒