用CNN卷積的情況,這里面有幾個關鍵點:
一個是文本跟圖片不一樣,圖片有長寬,然后還有深度(RGB)。對應到文本上,假設文章總共N個詞,每個詞嵌入維度K維,那么輸入是N *
K的,N可以理解為高度,K作為長度,深度為1。那么卷積的時候的特征抽取器(filter)高度h一般設置多大呢?
一般可以從3開始,表示捕獲住trigram特征。
更多的是使用幾種不同的filter(比如有高度各為2,3,5的)。 特征抽取器(filter)的長度一般設置為詞向量的維度,這樣保證每個filter抽取出來一個N-h+1個特征點,而不是一個平面(想想為什么)。
最重要的,在文本上work的pooling層一般是max-pooling,對每個filter應用整個序列上的max-pooling得到一個特征點(也有用k-max-pooling得到k個點),組合多個filter就能得到一系列特征,最后一個全連接層做分類。
這里為什么是max-pooling而不是min-pooling呢?一般來說,pooling后我們引入非線性是用Relu,relu對于小于0的直接就不激活了。
然后我們對比圖像的深度,文本一般深度只有一個,如何增加深度以及為什么增加呢?
一般我們的詞向量都是先預訓練出來的,然后在一個特定任務上使用,梯度會回傳回來進一步finetune,如果語料不是特別大,這個finetune過程只會對部分詞進行更新,有些詞就一直不動,這樣在測試階段,出現(xiàn)那些沒finetune到的詞就會有所偏差。我們可以同時使用兩份詞向量(相當于通道數(shù)為2,深度加深為2),一份finetune一份靜態(tài)地不更新,來緩解前面提到的問題。
二)
對于RNN做文本分類,相當于把每個詞作為一個時間節(jié)點,把詞向量作為每個單元的輸入特征,一般會組合前向以及后向來構成雙向特征,計算后每個單元有個狀態(tài)特征以及輸出特征,文本分類一般組合每一個單元的輸出特征求個平均喂給全連接層來做分類。
求平均這個操作可以替換為更通用的注意力機制,復雜度更高點,效果更好。
復雜點的模型會分層來做,句子界別的rnn然后attention,最后文檔級別在前一層的基礎上再rnn+attention,效果據(jù)說能更進一步提升。
數(shù)學基礎
如果你能夠順暢地讀懂深度學習論文中的數(shù)學公式,可以獨立地推導新方法,則表明你已經具備了必要的數(shù)學基礎。
掌握數(shù)學分析、線性代數(shù)、概率論和凸優(yōu)化四門數(shù)學課程包含的數(shù)學知識,熟知機器學習的基本理論和方法,是入門深度學習技術的前提。因為無論是理解深度網(wǎng)絡中各個層的運算和梯度推導,還是進行問題的形式化或是推導損失函數(shù),都離不開扎實的數(shù)學與機器學習基礎。
數(shù)學分析
在工科專業(yè)所開設的高等數(shù)學課程中,主要學習的內容為微積分。對于一般的深度學習研究和應用來說,需要重點溫習函數(shù)與極限、導數(shù)(特別是復合函數(shù)求導)、微分、積分、冪級數(shù)展開、微分方程等基礎知識。在深度學習的優(yōu)化過程中,求解函數(shù)的一階導數(shù)是最為基礎的工作。當提到微分中值定理、Taylor公式和拉格朗日乘子的時候,你不應該只是感到與它們似曾相識。
線性代數(shù)
深度學習中的運算常常被表示成向量和矩陣運算。線性代數(shù)正是這樣一門以向量和矩陣作為研究對象的數(shù)學分支。需要重點溫習的包括向量、線性空間、線性方程組、矩陣、矩陣運算及其性質、向量微積分。當提到Jacobian矩陣和Hessian矩陣的時候,你需要知道確切的數(shù)學形式;當給出一個矩陣形式的損失函數(shù)時,你可以很輕松的求解梯度。
概率論
概率論是研究隨機現(xiàn)象數(shù)量規(guī)律的數(shù)學分支,隨機變量在深度學習中有很多應用,無論是隨機梯度下降、參數(shù)初始化方法(如Xavier),還是Dropout正則化算法,都離不開概率論的理論支撐。除了掌握隨機現(xiàn)象的基本概念(如隨機試驗、樣本空間、概率、條件概率等)、隨機變量及其分布之外,還需要對大數(shù)定律及中心極限定理、參數(shù)估計、假設檢驗等內容有所了解,進一步還可以深入學習一點隨機過程、馬爾可夫隨機鏈的內容。
凸優(yōu)化
結合以上三門基礎的數(shù)學課程,凸優(yōu)化可以說是一門應用課程。但對于深度學習而言,由于常用的深度學習優(yōu)化方法往往只利用了一階的梯度信息進行隨機梯度下降,因而從業(yè)者事實上并不需要多少“高深”的凸優(yōu)化知識。理解凸集、凸函數(shù)、凸優(yōu)化的基本概念,掌握對偶問題的一般概念,掌握常見的無約束優(yōu)化方法如梯度下降方法、隨機梯度下降方法、Newton方法,了解一點等式約束優(yōu)化和不等式約束優(yōu)化方法,即可滿足理解深度學習中優(yōu)化方法的理論要求。
機器學習
歸根結底,深度學習只是機器學習方法的一種,而統(tǒng)計機器學習則是機器學習領域事實上的方法論。以監(jiān)督學習為例,需要你掌握線性模型的回歸與分類、支持向量機與核方法、隨機森林方法等具有代表性的機器學習技術,并了解模型選擇與模型推理、模型正則化技術、模型集成、Bootstrap方法、概率圖模型等。深入一步的話,還需要了解半監(jiān)督學習、無監(jiān)督學習和強化學習等專門技術。
第一章 數(shù)據(jù)庫基礎知識本章以概念為主,主要是了解數(shù)據(jù)庫的基本概念,數(shù)據(jù)庫技術的發(fā)展,數(shù)據(jù)模型,重點是關系型數(shù)據(jù)。
第一節(jié):信息,數(shù)據(jù)與數(shù)據(jù)處理一、信息與數(shù)據(jù):1、信息:是現(xiàn)實世界事物的存在方式或運動狀態(tài)的反映?;蛘J為,信息是一種已經被加工為特定形式的數(shù)據(jù)。
信息的主要特征是:信息的傳遞需要物質載體,信息的獲取和傳遞要消費能量;信息可以感知;信息可以存儲、壓縮、加工、傳遞、共享、擴散、再生和增值2、數(shù)據(jù):數(shù)據(jù)是信息的載體和具體表現(xiàn)形式,信息不隨著數(shù)據(jù)形式的變化而變化。數(shù)據(jù)有文字、數(shù)字、圖形、聲音等表現(xiàn)形式。
3、數(shù)據(jù)與信息的關系:一般情況下將數(shù)據(jù)與信息作為一個概念而不加區(qū)分。二、數(shù)據(jù)處理與數(shù)據(jù)管理技術:1、數(shù)據(jù)處理:數(shù)據(jù)處理是對各種形式的數(shù)據(jù)進行收集、存儲、加工和傳輸?shù)然顒拥目偡Q。
2、數(shù)據(jù)管理:數(shù)據(jù)收集、分類、組織、編碼、存儲、檢索、傳輸和維護等環(huán)節(jié)是數(shù)據(jù)處理的基本操作,稱為數(shù)據(jù)管理。數(shù)據(jù)管理是數(shù)據(jù)處理的核心問題。
3、數(shù)據(jù)庫技術所研究的問題不是如何科學的進行數(shù)據(jù)管理。4、數(shù)據(jù)管理技術的三個階段:人工管理,文件管理和數(shù)據(jù)庫系統(tǒng)。
第二節(jié):數(shù)據(jù)庫技術的發(fā)展一、數(shù)據(jù)庫的發(fā)展:數(shù)據(jù)庫的發(fā)展經歷了三個階段:1、層次型和網(wǎng)狀型: 代表產品是1969年IBM公司研制的層次模型數(shù)據(jù)庫管理系統(tǒng)IMS。2、關系型數(shù)據(jù)型庫: 目前大部分數(shù)據(jù)庫采用的是關系型數(shù)據(jù)庫。
1970年IBM公司的研究員E.F.Codd提出了關系模型。其代表產品為sysem R和Inges。
3、第三代數(shù)據(jù)庫將為更加豐富的數(shù)據(jù)模型和更強大的數(shù)據(jù)管理功能為特征,以提供傳統(tǒng)數(shù)據(jù)庫系統(tǒng)難以支持的新應用。它必須支持面向對象,具有開放性,能夠在多個平臺上使用。
二、數(shù)據(jù)庫技術的發(fā)展趨勢:1、面向對象的方法和技術對數(shù)據(jù)庫發(fā)展的影響:數(shù)據(jù)庫研究人員借鑒和吸收了面向對旬的方法和技術,提出了面向對象數(shù)據(jù)模型。2、數(shù)據(jù)庫技術與多學科技術的有機組合:3、面向專門應用領域的數(shù)據(jù)庫技術三、數(shù)據(jù)庫系統(tǒng)的組成:數(shù)據(jù)庫系統(tǒng)(DBS)是一個采用數(shù)據(jù)庫技術,具有管理數(shù)據(jù)庫功能,由硬件、軟件、數(shù)據(jù)庫及各類人員組成的計算機系統(tǒng)。
1、數(shù)據(jù)庫(DB):數(shù)據(jù)庫是以一定的組織方式存放于計算機外存儲器中相互關聯(lián)的數(shù)據(jù)集合,它是數(shù)據(jù)庫系統(tǒng)的核心和管理對象,其數(shù)據(jù)是集成的、共享的以及冗余最小的。2、數(shù)據(jù)庫管理系統(tǒng)(DBMS):數(shù)據(jù)庫管理系統(tǒng)是維護和管理數(shù)據(jù)庫的軟件,是數(shù)據(jù)庫與用戶之間的界面。
作為數(shù)據(jù)庫的核心軟件,提供建立、操作、維護數(shù)據(jù)庫的命令和方法。3、應用程序:對數(shù)據(jù)庫中數(shù)據(jù)進行各種處理的程序,由用戶編寫。
4、計算機軟件:5、計算機硬件:包括CPU、內存、磁盤等。要求有足夠大的內存來存放操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)的核心模塊以及數(shù)據(jù)庫緩沖;足夠大的磁盤能夠直接存取和備份數(shù)據(jù);比較主的通道能力;支持聯(lián)網(wǎng),實現(xiàn)數(shù)據(jù)共享。
6、各類人員。四、數(shù)據(jù)庫系統(tǒng)的特點:1、數(shù)據(jù)共享:2、面向全組織的數(shù)據(jù)結構化:數(shù)據(jù)不再從屬于一個特定應用,而是按照某種模型組織成為一個結構化的整。
它描述數(shù)據(jù)要身的特性,也描述數(shù)據(jù)與數(shù)據(jù)之間的種種聯(lián)系。3、數(shù)據(jù)獨立性:4、可控數(shù)據(jù)冗余度:5、統(tǒng)一數(shù)據(jù)控制功能:數(shù)據(jù)安全性控制:指采取一定的安全保密措施確保數(shù)據(jù)庫中的數(shù)據(jù)不被非法用戶存取而造成數(shù)據(jù)的泄密和破壞;數(shù)據(jù)完整性控制:是指數(shù)據(jù)的正確性、有效性與相容性。
并發(fā)控制:多個用戶對數(shù)據(jù)進行存取時,采取必要的措施進行數(shù)據(jù)保護;數(shù)據(jù)恢復:系統(tǒng)能進行應急處理,把數(shù)據(jù)恢復到正確狀態(tài)。第三節(jié):數(shù)據(jù)模型一、數(shù)據(jù)組織:關系型數(shù)據(jù)庫中的數(shù)據(jù)層次如下:1、數(shù)據(jù)項(field):又稱字段,用于描述實體的一個屬性,是數(shù)據(jù)庫的基本單位。
一般用屬性名作項名;2、記錄(Record):又稱為結點,由若干個數(shù)據(jù)項組成,用于描述一個對象;3、文件(File):由若干個記錄組成;4、數(shù)據(jù)庫(Data Base):由邏輯相關的文件組成。二、數(shù)據(jù)模型:數(shù)據(jù)的組織形式稱為數(shù)據(jù)模型,它決定 數(shù)據(jù)(主要是結點)之間聯(lián)系的表達方式。
主要包括層次型、網(wǎng)狀型、關系型和面向對象型四種。層次型和網(wǎng)狀型是早期的數(shù)據(jù)模型,又稱為格式化數(shù)據(jù)系統(tǒng)數(shù)模型。
以上四種模型決定了四種類型的數(shù)據(jù)庫:層次數(shù)據(jù)庫系統(tǒng),網(wǎng)狀數(shù)據(jù)庫系統(tǒng),關系型數(shù)據(jù)庫系統(tǒng)以及面向對象數(shù)據(jù)庫系統(tǒng)。目前微機上使用的主要是關系型數(shù)據(jù)庫。
1、層次型:是以記錄為結點的有向樹;圖如教材P7圖1--22、網(wǎng)狀型:樹的集合,它的表示能力以及精巧懷強于層次型,但獨立性下降。3、關系型:在關系型中,數(shù)據(jù)被組織成若干張二維表,每張表稱為一個關系。
一張表格中的一列稱為一個“屬性”,相當于記錄中的一個數(shù)據(jù)項(或稱為字段),屬性的取值范圍稱為域。表格中的一行稱為一個“元組”,相當于記錄值。
可用一個或若干個屬性集合的值標識這些元組,稱為“關鍵字”。每一行對應的屬性值叫做一個分量。
表格的框架相當于記錄型,一個表格數(shù)據(jù)相當于一個同質文件。所有關系由關系的框架和若干元組構成,或者說關系是一張二維表。
關系型。
作為一個真正的IT人員,我們不僅要懂得高級語言的編程使用,更要懂得電腦基礎的知識。這是我們成為杰出的IT人員的基石,只有踏上這些基礎知識我們才能走的更高。
首先我們要懂得電腦是如何工作的?電腦的工作原理就是開和關兩種狀態(tài),這是由其中的部件只有開和關這兩種狀態(tài)最穩(wěn)定決定的。
而我們用0和1去表示他們,電腦將0和1進行了充分的組合,也就是部件的串聯(lián),造就了豐富多變各種各樣的事物,也就是我們看電腦功能的強大。
可以通過0和1進行編碼輸入計算機,也可以通過解碼將其還原成原來的事物。這就是電腦工作最基本的原理。
0和1編碼也就是我們說的二進制Binary,二進制的出現(xiàn)正是伴隨著計算機的誕生而出現(xiàn)的,計算機的一切工作計算都是由二進制編碼完成的。就像十進制Decimal正是專門為我們人類使用方便而產生的。另外還有十六進制Hexadecimal,由于人類研究二進制比較復雜,才引出了十六進制去方便研究二進制。
而這些簡單的二進制是如何和世界轉變的呢?這里又引出了ASCII碼,BCD碼,國標碼等這些都是幫助計算機實現(xiàn)其功能的必需品。
這些東西都是電腦正常工作的必備條件,只有我們把這些東西,弄明白了我們才能在計算機方面走的更高更遠。
IT 人員必學的基礎知識(二)——進制相互轉化
二進制是計算機處理數(shù)據(jù)的工具。單位有位(bit),字節(jié)(Byte),千字兆(KB),兆字節(jié)(MB),千兆字節(jié)(GB)。
相互轉換關系:1B=8bit,1KB=1024B,1MB=1024KB,1GB=1024MB。
二進制,八進制,十進制,十六進制之間的轉換圖:
其中二進制可以作為這幾種之間相互轉化的基礎,通過二進制很多可以變得很簡單:
IT人員必學基礎知識(三)——編碼理解
上篇說的二進制等之間的轉換,而要完成這些轉換,需要人為的定制一些規(guī)則,這就是第一篇提到的ASCII碼,BCD碼和國標碼。
1、ASCII碼,即美國標準信息交換碼(American Standard Code for Information Interchanger), 包括了32個通用字符,10個十進制數(shù)碼,52個英文大小寫字母和34個專用符號。這是沒有拓展的,最常用的。圖:
2、BCD(Binary-Coded Decimal)碼,又稱為“二-十進制編碼”專門解決用二進制數(shù)表示十進制數(shù)的問題。BCD制編碼的方法有很多,通常有8421碼,5421碼等等。
例:13可以寫作8421碼0001 0011
3、國標碼(GB2312),主要是編碼漢字的,有兩個7位二進制編碼表示,即每個編碼需要占兩個字節(jié),是針對中國一些信息編制的一些編碼。
IT人員必學基礎知識(四)——補充總結
這是計算機計算十進制運算時的大致過程,它將幾種進制和幾種編碼運用到了極致。這就是計算機運用簡單的事物早就不簡單的事情。計算機中任何一個過程都需要運用到這些知識,另外還有原碼,反碼,補碼等等。
在計算機內,定點數(shù)有3種表示法:原碼、反碼和補碼。原碼(true form)就是二進制定點表示法,即最高位為符號位,“0”表示正,“1”表示負,其余位表示數(shù)值的大小。
反碼表示法規(guī)定:正數(shù)的反碼與其原碼相同;負數(shù)的反碼是對其原碼逐位取反,但符號位除外。補碼(two's complement)表示法規(guī)定:正數(shù)的補碼與其原碼相同;負數(shù)的補碼是在其反碼的末位加1。
不知不覺中9周的《軟件技術基礎》 這門課課已經結束了,雖然時間有點短, 但這九個星期的學習中我卻受益匪淺, 不僅讓我系統(tǒng)的了解了許多計算機軟件相關的基礎知識和一些常用的系統(tǒng)軟件, 還讓我有了更科學的方法去分析一些軟件方面的問題,這對于我今后的學習和工作都是有很大幫助的。 下面來談談我對學習這門課的一點點心得。 首先,我們認識到了計算機對現(xiàn)在社會、生活的影響之重,我們要想靈活的應對以后生活中的各種問題,擁有一個好的計算機技術必不可少的,而要想真的學好計算機技術,我們首先就得對計算機的操作、工作原理和規(guī)則等有一個清晰的認識。 如今僅僅掌握計算機語言并不能有效地使用計算機,我們必須掌握數(shù)據(jù)結構和算法方面的知識才能應對眾多復雜的應用課題。剛開始學習數(shù)據(jù)結構時感覺它很抽象,而且感覺它沒多大用處,后來發(fā)現(xiàn)不然,我們學習的是一些方法、思維,只有學會了這些我們才能解決一些非數(shù)值運算的程序設計方面的問題。 以前我們用過數(shù)據(jù)庫比如Access,但我們只是很基礎的應用它們,并不懂它的創(chuàng)建和工作原理,自從學習了這門課,我才初步了解了數(shù)據(jù)處理和數(shù)據(jù)管理方面的一些知識,并學到了
SQL語言的一些基礎知識,這對我以后更深層次的學習計算機技術打下了一個基礎。
雖然這門課程已經結束,我們學到的也是很基礎的一部分,但它對我們影響很深,讓我們以后學習更簡單了。當然我仍會繼續(xù)學習各種關于計算機技術方面的知識,讓自己有一個過硬的技術,去應對各方面的問題
群論定義:在數(shù)學和抽象代數(shù)中,群論研究名為群的代數(shù)結構。群在抽象代數(shù)中具有基本的重要地位:許多代數(shù)結構,包括環(huán)、域和模等可以看作是在群的基礎上添加新的運算和公理而形成的。群的概念在數(shù)學的許多分支都有出現(xiàn),而且群論的研究方法也對抽象代數(shù)的其它分支有重要影響。群論的重要性還體現(xiàn)在物理學和化學的研究中,因為許多不同的物理結構,如晶體結構和氫原子結構可以用群論方法來進行建模。于是群論和相關的群表示論在物理學和化學中有大量的應用。
群論涉及范圍較廣,需要基礎知識也較多,比如:集合相關知識,幾何學,拓撲學,數(shù)學分析,代數(shù)學,概率論,運籌學,應用統(tǒng)計學等。
因此,如果要學最好選擇一個方向進行研究,不然需要知識太多反而不利于研究學習。
介紹幾本書:CDMA 2000技術 電子設計原理和技巧 無線射頻識別技術RFID理論與應用 通信技術概論 ( 學無止境,尤其通信) 基礎知識那就得從《通信原理》開始看了,還有幾本書就是1.信號與系統(tǒng) 2.通信網(wǎng)概論 3. 高頻電子線路 4.電子技術基礎教程 5.數(shù)字通信原理 6. 單片機原理及應用 7. 移動通信(第二版) 8. 光纖通信 9. 現(xiàn)代交換技術 10. 微波通信技術
再者就是計算機類:1.c程序設計 2.匯編語言 3. java或c++其中一個 4. ps或cad 5. 計算機網(wǎng)絡 6. protel dxp
聲明:本網(wǎng)站尊重并保護知識產權,根據(jù)《信息網(wǎng)絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.643秒