數(shù)據(jù)分析落實到實處,一般就是圍繞用戶漏斗展開的。也就是人們常說的訪問-激活-留存-交易-推薦。
這核心的5步會有不同維度的細分。
獲客:來源、渠道、關鍵字、著陸頁、地域、設備、訪問時間、跳出率、訪問深度、停留時間、新客量等等;
激活:DAU(日活躍用戶)、MAU(月活躍用戶)
留存:日留存率、周留存率、月留存率
交易:訂單量、訂單金額、LTV
推薦:是否傳播(k>1)
需要獲取以上數(shù)據(jù),可以通過ptengine通過漏斗細分得到可視化圖表。一般來講,同比(本周和上周)、環(huán)比(本月第一周和上月第一周)、定基比(所有數(shù)據(jù)和當年第一周)即可獲得數(shù)據(jù)的變化情況。
以上,其實不用很專業(yè)也能做好數(shù)據(jù)分析,獲取數(shù)據(jù)并不難,難的是你能洞察數(shù)據(jù)背后的意義。
因子分析的核心問題有兩個:一是如何構造因子變量;二是如何對因子變量進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
⑴確認待分析的原變量是否適合作因子分析。
⑵構造因子變量。
⑶利用旋轉方法使因子變量更具有可解釋性。
⑷計算因子變量得分。
(ii)因子分析的計算過程:
⑴將原始數(shù)據(jù)標準化,以消除變量間在數(shù)量級和量綱上的不同。
⑵求標準化數(shù)據(jù)的相關矩陣;
⑶求相關矩陣的特征值和特征向量;
⑷計算方差貢獻率與累積方差貢獻率;
⑸確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數(shù)據(jù)信息總量(即其累積貢獻率)不低于80%時,可取前m個因子來反映原評價指標;
⑹因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
⑺用原指標的線性組合來求各因子得分:
采用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
⑻綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數(shù)。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉后因子的方差貢獻率。
⑼得分排序:利用綜合得分可以得到得分名次。
在采用多元統(tǒng)計分析技術進行數(shù)據(jù)處理、建立宏觀或微觀系統(tǒng)模型時,需要研究以下幾個方面的問題:
· 簡化系統(tǒng)結構,探討系統(tǒng)內(nèi)核??刹捎弥鞒煞址治觥⒁蜃臃治?、對應分析等方法,在眾多因素中找出各個變量最佳的子集合,從子集合所包含的信息描述多變量的系統(tǒng)結果及各個因子對系統(tǒng)的影響?!皬臉淠究瓷帧?,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統(tǒng)的結構,認識系統(tǒng)的內(nèi)核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產(chǎn)中,探索多變量系統(tǒng)運動的客觀規(guī)律及其與外部環(huán)境的關系,進行預測預報,以實現(xiàn)對系統(tǒng)的最優(yōu)控制,是應用多元統(tǒng)計分析技術的主要目的。在多元分析中,用于預報控制的模型有兩大類。一類是預測預報模型,通常采用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常采用聚類分析的建模技術。
· 進行數(shù)值分類,構造分類模式。在多變量系統(tǒng)的分析中,往往需要將系統(tǒng)性質相似的事物或現(xiàn)象歸為一類。以便找出它們之間的聯(lián)系和內(nèi)在規(guī)律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統(tǒng)的總的特征。進行數(shù)值分類,構造分類模式一般采用聚類分析和判別分析技術。
如何選擇適當?shù)姆椒▉斫鉀Q實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統(tǒng)計方法進行分析。例如一個預報模型的建立,可先根據(jù)有關生物學、生態(tài)學原理,確定理論模型和試驗設計;根據(jù)試驗結果,收集試驗資料;對資料進行初步提煉;然后應用統(tǒng)計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變量之間的相關性,選擇最佳的變量子集合;在此基礎上構造預報模型,最后對模型進行診斷和優(yōu)化處理,并應用于生產(chǎn)實際。
一、描述性統(tǒng)計
描述性統(tǒng)計是一類統(tǒng)計方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測數(shù)據(jù)建立變量間適當?shù)囊蕾囮P系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個自變量X與因變量Y有關,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3. 多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系
4. 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分數(shù)、方差、相關系數(shù)等)進行的檢驗 。
2. 非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態(tài))進行檢驗。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
去百度文庫,查看完整內(nèi)容>
內(nèi)容來自用戶:蔣上樹
常用數(shù)據(jù)分析方法有那些
文章來源:ECP數(shù)據(jù)分析時間:2013/6/28 13:35:06發(fā)布者:常用數(shù)據(jù)分析(關注:554)
標簽:本文包括:
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析;
問卷調查常用數(shù)據(jù)分析方法:描述性統(tǒng)計分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結構方程模型分析(structural equations modeling)。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。
數(shù)據(jù)分析統(tǒng)計工具:SPSS、minitab、JMP。
常用數(shù)據(jù)分析方法:
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少決策的困難。相關分析(直方圖JMP
本來想給你截圖的,可是傳不上來,我就簡單說一下哈。
首先你得進行一次預計算,選擇菜單里分析——降維——因子分析,跳出主面板,把想分析的變量選到變量框里,然后點確定。這時候輸出窗口里會只有一個或兩個圖表。其中有一個圖表是主成分的方差貢獻。這個圖表里你要找到兩個相鄰的列(應該是第三列和第四列),其中前一個列指的是單個因子對方差的貢獻率,后一個是因子累計貢獻率。也就是說前一個列里邊數(shù)值相加等于100,后一個列里邊數(shù)值遞增,最后一個等于100。假如前一個列里是60,30,10,那么后一列里就是60,90,100.兩個列之間有一個和的關系。找到這兩個列以后,你要找使得累計貢獻率達到百分之八十的那個數(shù)。這個表的第一列是1,2,3,等等,它代表第幾個因子,比如3指的那行就包括第三個因子的方差貢獻率,累積到第三個因子的方差貢獻率這兩個數(shù)據(jù)。你要找到累計到達百分之八十的那個因子是第幾個因子,然后就按提取幾個因子進行計算。
通過預計算知道了提取幾個因子之后,就開始正式計算。再次打開因子分析的主面板,在最右邊一共有五個選項,分別是描述,抽取,旋轉,得分,選項。這五個在預計算里邊沒有用,但是現(xiàn)在要用了。點繼續(xù)。
點擊描述,在對話框里選上初始變量分析,kmo統(tǒng)計量及bartlett球形檢驗這兩個選項,(注意,kmo和bartlett是一個選項,選項名就是很長)這一步是用來判斷變量是否適于進行因子分析的。
點擊抽取,對話框里最上邊的方法就選主成分,分析里選上相關性矩陣,輸出選上未旋轉的因子解和碎石圖兩個選項,抽取里選擇因子的固定數(shù)目,在要提取的因子后邊填上你預計算里算出的因子數(shù)目。點繼續(xù)。
旋轉里邊選最大方差法,輸出旋轉解。繼續(xù)。
得分里邊選保存為變量,方法為回歸,顯示因子得分系數(shù)矩陣也要打上勾。繼續(xù)。
確定。
然后就可以分析結果了。
先看kmo和bartlett的結果,kmo統(tǒng)計量越接近1,變量相關性越強,因子分析效果越好。通常0.7以上為一般,0.5以下不能接受,就是不適合做因子分析。bartlett檢驗從檢驗相關矩陣出發(fā),如果p值,就是sig,比較小的話,一般認為小于0.05,當然越小越好,就適于因子分析。
如果這兩個檢驗都合格的話,才可以去寫因子模型。
為了便于描述,假設我們有兩個因子f1,f2,
旋轉變換后的因子載荷矩陣會告訴你每個變量用因子表示的系數(shù)。比如變量x1=系數(shù)1*f1+系數(shù)2*f2,變量2以此類推。
因子得分系數(shù)矩陣會告訴你每個因子里各變量占得權重,比如f1=系數(shù)1*x1+系數(shù)2*x2+。
根據(jù)這個我們就能算出因子得分了。
因為之前選擇了將因子保存為新變量,所以spss會直接保存兩個因子得分為兩個新變量,
然后我們不是有一個公式嗎
總得分=因子1的方差貢獻率*因子1的得分+因子2的方差貢獻率*因子2的得分+。
根據(jù)這個公式計算一下就可以了。
用spss或者excel都可以。
希望能對你有幫助哦。
ppv課,大數(shù)據(jù)培訓專家,最專業(yè)的大數(shù)據(jù)培訓平臺。為你提供最好的spss學習教程哦。
常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析; 問卷調查常用數(shù)據(jù)分析方法:描述性統(tǒng)計分析、探索性因素分析、Cronbach'a信度系數(shù)分析、結構方程模型分析(structural equations modeling) 。
數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatter diagram)、魚骨圖(Ishikawa)、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。 數(shù)據(jù)分析統(tǒng)計工具:SPSS、minitab、JMP。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據(jù)《信息網(wǎng)絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.406秒