僅在里邊定義連接字串,在使用的時候在創(chuàng)建對象,使用完對象就關(guān)閉
Config.asp:
Quote
<%
Dim Def_Sample
Def_Path=server.MapPath("data.mdb")
Def_Sample="DBQ="+Def_Path+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)};" '連接字串
%>
文本分類問題與其它分類問題沒有本質(zhì)上的區(qū)別,其方法可以歸結(jié)為根據(jù)待分類數(shù)據(jù)的某些特征來進行匹配,當然完全的匹配是不太可能的,因此必須(根據(jù)某種評價標準)選擇最優(yōu)的匹配結(jié)果,從而完成分類。
后來人們意識到,究竟依據(jù)什么特征來判斷文本應當隸屬的類別這個問題,就連人類自己都不太回答得清楚,有太多所謂“只可意會,不能言傳”的東西在里面。人類的判斷大多依據(jù)經(jīng)驗以及直覺,因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文檔的觀察來自己總結(jié)經(jīng)驗,作為今后分類的依據(jù)。
這便是統(tǒng)計學習方法的基本思想。統(tǒng)計學習方法需要一批由人工進行了準確分類的文檔作為學習的材料(稱為訓練集,注意由人分類一批文檔比從這些文檔中總結(jié)出準確的規(guī)則成本要低得多),計算機從這些文檔中挖掘出一些能夠有效分類的規(guī)則,這個過程被形象的稱為訓練,而總結(jié)出的規(guī)則集合常常被稱為分類器。
訓練完成之后,需要對計算機從來沒有見過的文檔進行分類時,便使用這些分類器來進行。這些訓練集包括sogou文本分類分類測試數(shù)據(jù)、中文文本分類分類語料庫,包含Arts、Literature等類別的語料文本、可用于聚類的英文文本數(shù)據(jù)集、網(wǎng)易分類文本分類文本數(shù)據(jù)、tc-corpus-train(語料庫訓練集,適用于文本分類分類中的訓練)、2002年中文網(wǎng)頁分類訓練集CCT2002-v1.1等。
現(xiàn)如今,統(tǒng)計學習方法已經(jīng)成為了文本分類領(lǐng)域絕對的主流。主要的原因在于其中的很多技術(shù)擁有堅實的理論基礎(chǔ)(相比之下,知識工程方法中專家的主觀因素居多),存在明確的評價標準,以及實際表現(xiàn)良好。
統(tǒng)計分類算法 將樣本數(shù)據(jù)成功轉(zhuǎn)化為向量表示之后,計算機才算開始真正意義上的“學習”過程。常用的分類算法為:決策樹,Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡,支持向量機,線性最小平方擬合,kNN,遺傳算法,最大熵,Generalized Instance Set等。
在這里只挑幾個最具代表性的算法侃一侃。Rocchio算法 Rocchio算法應該算是人們思考文本分類問題時最先能想到,也最符合直覺的解決方法。
基本的思路是把一個類別里的樣本文檔各項取個平均值(例如把所有 “體育”類文檔中詞匯“籃球”出現(xiàn)的次數(shù)取個平均值,再把“裁判”取個平均值,依次做下去),可以得到一個新的向量,形象的稱之為“質(zhì)心”,質(zhì)心就成了這 個類別最具代表性的向量表示。再有新文檔需要判斷的時候,比較新文檔和質(zhì)心有多么相像(八股點說,判斷他們之間的距離)就可以確定新文檔屬不屬于這個類。
稍微改進一點的Rocchio算法不僅考慮屬于這個類別的文檔(稱為正樣本),也考慮不屬于這個類別的文檔數(shù)據(jù)(稱為負樣本),計算出來的質(zhì)心盡量靠近正樣本同時盡量遠離負樣本。Rocchio算法做了兩個很致命的假設(shè),使得它的性能出奇的差。
一是它認為一個類別的文檔僅僅聚集在一個質(zhì)心的周圍,實際情況往往不是如此(這樣的數(shù)據(jù)稱為線性不可分的);二是它假設(shè)訓練數(shù)據(jù)是絕對正確的,因為它沒有任何定量衡量樣本是否含有噪聲的機制,因而也就對錯誤數(shù)據(jù)毫無抵抗力。不過Rocchio產(chǎn)生的分類器很直觀,很容易被人類理解,算法也簡單,還是有一定的利用價值的,常常被用來做科研中比較不同算法優(yōu)劣的基線系統(tǒng)(Base Line)。
樸素貝葉斯算法 貝葉斯算法關(guān)注的是文檔屬于某類別概率。文檔屬于某個類別的概率等于文檔中每個詞屬于該類別的概率的綜合表達式。
而每個詞屬于該類別的概率又在一定程度上 可以用這個詞在該類別訓練文檔中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計,因而使得整個計算過程成為可行的。使用樸素貝葉斯算法時,在訓練階段的主要任務就是估計這些值。
樸素貝葉斯算法的公式并不是只有一個。首先對于每一個樣本中的元素要計算先驗概率。
其次要計算一個樣本對于每個分類的概率,概率最大的分類將被采納。所以 其中P(d| Ci)=P(w1|Ci) P(w2|Ci) …P(wi|Ci) P(w1|Ci) …P(wm|Ci) (式1) P(w|C)=元素w在分類為C的樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后的樣本中元素的總數(shù)(式2) 這其中就蘊含著樸素貝葉斯算法最大的兩個缺陷。
首先,P(d| Ci)之所以能展開成(式1)的連乘積形式,就是假設(shè)一篇文章中的各個詞之間是彼此獨立的,其中一個詞的出現(xiàn)絲毫不受另一個詞的影響(回憶一下概率論中變 量彼此獨立的概念就可以知道),但這顯然不對,即使不是語言學專家的我們也知道,詞語之間有明顯的所謂“共現(xiàn)”關(guān)系,在不同主題的文章中,可能共現(xiàn)的次數(shù) 或頻率有變化,但彼此間絕對談不上獨立。其二,使用某個詞在某個類別訓練文檔中出現(xiàn)的次數(shù)來估計P(wi|Ci)時,只在訓練樣本數(shù)量非常多的情況下才比較準確(考慮扔硬幣的問題,得通過大量觀 察才能基本得出正反面出現(xiàn)的概率都是二分之一的結(jié)論,觀察次數(shù)太少時很可能得到錯誤的答案),而需要大量樣本的要求不僅給前期人工分類的工作帶來更高要求 (從而成本上升),在后期由計算機處理的時候也對存儲和計算資源提出了更高的要求。
但是稍有常識的技術(shù)人員都會了解,數(shù)據(jù)挖掘中占用大量時間的部分是數(shù)據(jù)整理。在數(shù)據(jù)整理階段,可以根據(jù)詞匯的情況生成字典,刪除冗余沒有意義的。
在word中,以word2010為例來介紹七種文本選取的方法,以便提升工作效率。
1、第一種選擇字或詞組的方法。
通常是通過拖動鼠標來實現(xiàn)單詞和單詞的選擇,另外,基于單詞的強大關(guān)聯(lián)功能,還可以通過將光標移動到短語的中間然后雙擊鼠標來選擇短語,如下圖所示。
2、第二種是選擇單行和段落的方法。
可以將光標移動到行的左端,當箭頭處于箭頭狀態(tài)時單擊鼠標,然后是文本行選中,如果雙擊鼠標,則可以選擇段落文本,相比較拖動鼠標來選擇單行文本這種方法要快得多。
3、第三種是選擇整篇。
只需要將光標移動到文檔的左側(cè),顯示光標時,可以通過三擊左鍵來選擇整篇文章,除此之外還可以用“Ctrl+A”來實現(xiàn)選擇整篇。
4、第四種是跨頁選擇文本。
如果要選擇的文本不在一頁上,用手動發(fā)票的方式來選擇是非常不方便的,這時可以用先停止光標,然后選擇文本,然后向下滾動選擇在文本末尾,按住shift并單擊此處的方法。
或是在選擇文本前按住光標,按F8,然后在所選文本末尾單擊鼠標,可以通過調(diào)整鼠標位置靈活選擇文本,之后,按Esc鍵結(jié)束。
5、第五種是選擇區(qū)域文本的方法。
如果選擇的劃如下圖所示的區(qū)域內(nèi)的文字,用鼠標拖動就無法實現(xiàn),這時可將光標移動到選區(qū)開頭,按住Alt鍵將矩形區(qū)域拉出到右下方,將選擇區(qū)域中的文本,更改顏色以查看選擇效果。
6、第六種是選擇相似文本的方法。
這一方法主要是針對標題類的文本選擇,可先選中某一級的標題,再選擇并點擊“選擇格式相似的文本”,就可以看到同一級的標題都被選中了。
7、第七種是間隔選擇文本的方法。
如果要在同一文本中選擇不同區(qū)域的文本,先選擇一部分文本,然后按住Ctrl鍵,再將其它部分加入,若對某一部分不想選擇了,也可以將光標移動到此部分,后點擊左鍵即可取消該此部分。
趙琦(黑龍江省總工會,黑龍江 哈爾濱 150000) 摘要:文書檔案是社會發(fā)展的主要記錄載體,從古至今,人們對檔案工作一直都非常重視。
在社會不斷發(fā)展中,文書檔案管理方法不斷完善,這也意味著文書檔案的管理不斷細分,因此在文書檔案管理中需要對檔案進行嚴格分類,以此提高文書檔案工作效率。本文闡述了文書檔案工作中最常見的三類分類方法,主要分為:年度分類法、組織機構(gòu)分類法和問題分類法。
關(guān)鍵詞:文書檔案;分類方法;年度分類法;組織機構(gòu);問題分類法 文書檔案是記載了社會發(fā)展中各種現(xiàn)實事物發(fā)生的整體過程,通過對歷史客觀記錄來衡量某一時期領(lǐng)導人供給,同時是反應某一時期各個基層、部門建設(shè)和科技成果開發(fā)的主要措施。伴隨著社會發(fā)展中,人們對文書檔案認識的不斷增加,文書檔案分類是與檔案整體工作的基本出發(fā)點和根本目的,是保持文件之間歷史聯(lián)系發(fā)生各種矛盾的過程中能夠充分的考慮和保管,利用相應的方便來實現(xiàn)檔案管理效率。
在文書檔案工作中,分類是通過將文件按照不同的形式和形成機關(guān)等因素分開,避免出現(xiàn)不同機關(guān)文件的混雜,造成檔案管理工作的混亂。1 年度分類法 就是根據(jù)形成和處理文件的年度,是通過將全宗內(nèi)的所有文書檔案按照時間為標準進行逐步區(qū)分,通過形成年限逐次排開。
運用年度分類法,要求根據(jù)文件的準確日期將文書檔案進行歸納,并且注明其形成的實踐,這是確保分類質(zhì)量和效率的關(guān)鍵,同時也是在當前實際工作中能夠合理完善檔案分類工作的有效措施,其在分類的過程中需要注意一下幾個方面:一是在實際社會活動中,不僅有通用的公歷年度,其中也有一些特殊行業(yè)和部門是按照工作性質(zhì)和工作特點的需要來對檔案在應用中采用過去農(nóng)歷方式進行編制的,這就造成檔案在分類中容易混淆的問題,因此在分類的過程中需要對這種情況嚴加分析,避免出現(xiàn)文檔分類的混亂。二是某些文件上有幾種日期,如起草日期、簽署日期、批準日期、會議通過日期、發(fā)布日期和收文日期等,這些日期有時還不屬于同一年度。
在這種情況下,要根據(jù)文件的具體情況確定一個最能說明文件時間特點的日期。通常的做法是:內(nèi)部文件和一般發(fā)文以文件的寫成日期為根據(jù);來往文件中收文以收到日期為根據(jù);法律、法令和條例等法規(guī)文件以批準日期或公布、生效日期為根據(jù);指示、命令等指令性文件以文件簽署日期即落款日期為根據(jù);計劃、總結(jié)、預算、決算、統(tǒng)計報表等以內(nèi)容所針對的時限為根據(jù);跨年度處理的專門案卷、來往文書等可放入關(guān)系最密切的年度或最后結(jié)案的年度。
期刊文章分類查詢,盡在期刊圖書館 三是一些文件由于某種原因沒有標注或找不到日期,對此需要根據(jù)文件的具體情況,采取適宜的辦法考證和判定文件的準確或近似的日期,并將其妥善歸類。在文書檔案的管理工作中,對分類要求日益增加。
文書檔案在管理中一般都是通過以每份文件為一件,文件正本與定稿為一件,正文與附件為一件,元件與復制件為一件,轉(zhuǎn)發(fā)文件與被轉(zhuǎn)發(fā)文件。四是在年度分類的過程中一般都是通過將一份文件結(jié)合實踐特征來進行整理,這是通過成文時間、簽發(fā)時間、批復時間、通過實踐和公布時間等,不過在目前的分類管理中一般應用醉倒的是文件的簽發(fā)時間。
以文件簽發(fā)時間來判定文件的所屬年度是當前對各個單位和企業(yè)進行總結(jié)的主要方法,同時也是按照新方法取消其中內(nèi)容的主要手段。2 組織機構(gòu)分類法 就是根據(jù)文書處理階段形成和處理文件的承辦單位進行分類。
它以立檔單位內(nèi)部的組織機構(gòu)為標準,按不同的機構(gòu)分別設(shè)置類目。采用組織機構(gòu)分類方法應具備一定的條件:第一,立檔單位每年設(shè)立的內(nèi)部組織機構(gòu)應當基本穩(wěn)定。
內(nèi)部組織機構(gòu)經(jīng)常調(diào)整變化的立檔單位,不宜采用這種方法。第二,立檔單位設(shè)立的各個內(nèi)部組織機構(gòu)應當能夠反映該單位的職能分工情況,并且每個組織機構(gòu)具有較穩(wěn)定的基本工作任務或職責,其工作活動的內(nèi)容及過程應同該機構(gòu)承擔的相關(guān)職能保持一致。
第三,立檔單位的文件上應有各組織機構(gòu)在形成及承辦文件時留下的標記,如收文章、發(fā)文號等。組織機構(gòu)分類法的類別設(shè)置,一般是以立檔單位內(nèi)第一層組織機構(gòu)分類,需要時也可以分到第二層組織機構(gòu),往往有一個機構(gòu)就設(shè)一個類。
如果一個單位的機構(gòu)包括辦公室、人事部、財會部、組織部、宣傳部等,采用組織機構(gòu)分類法就可將檔案分為辦公室類、人事部類、財會部類、組織部類、宣傳部類等。各類的排列次序一般按習慣或正式文件的規(guī)定,把領(lǐng)導機構(gòu)、綜合機構(gòu)排在前面。
3 問題分類法 就是按照文件內(nèi)容所反映的問題或“事由”將文書檔案劃分成各個類別。它以文件的內(nèi)容為標準,按文件所涉及的問題(事由)分類。
如一個全宗內(nèi)的檔案可以按人事、計劃、生產(chǎn)、銷售等類別分類,銷售類內(nèi)的檔案還可以按廣告宣傳、推銷、運輸、售后服務等進一步分類。這種分類方法要求問題的概括應當準確并且范圍明確,各個同級類目應當互相排斥,并按文件的主要內(nèi)容進行歸類。
因此,相對而言,這種分類方法要求檔案人員具有較高的業(yè)務水平。為確保每份文件都能正確歸類,使用問題分類法時應注意以下。
用電腦對文本集(或其他實體或物件)按照一定的分類體系或標準進行自動分類標記 基於分類體系的自動分類 基於資訊過濾和用戶興趣(Profiles)的自動分類 基於分類體系的自動分類 所謂分類體系就是針對詞的統(tǒng)計來分類 關(guān)鍵字分類,現(xiàn)在的全文檢索 詞的正確切分不易分辨(白癡造句法) 基於資訊過濾和用戶興趣的自動分類 學習人類對文本分類的知識和策略 從人對文本和類別之間相關(guān)性判斷來學習文件用字和標記類別之間的關(guān)聯(lián) 請參考: n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf) n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf) n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf) n 蘇金樹、張博鋒、徐 昕,基于機器學習的文本分類技術(shù)研究進展 軟件學報 17(9): 1848-1859, 2006.9 (.pdf) n 基于統(tǒng)計學習理論的支持向量機算法研究 。
文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結(jié)果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統(tǒng)計、特征抽取等步驟。文本分類系統(tǒng)的總體功能模塊為:
(1) 預處理:將原始語料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;
(2) 索引:將文檔分解為基本處理單元,同時降低后續(xù)處理的開銷;
(3) 統(tǒng)計:詞頻統(tǒng)計,項(單詞、概念)與分類的相關(guān)概率;
(4) 特征抽?。簭奈臋n中抽取出反映文檔主題的特征;
(5)分類器:分類器的訓練;
(6) 評價:分類器的測試結(jié)果分析。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.444秒