這幾天ChatGPT可謂是熱火朝天,很多同事和朋友都來找到勇哥,說能不能說一說相關話題,但是之前幾天勇哥都在默默的干一件大事情,今天終于成型、有結果了,所有就抽了點時間來和大家一起聊聊ChatGPT背后的技術,讓大家對一自然語言處理背景的技術有一個入門級別的了解。
了解到ChatGPT是什么、有哪些功能?
了解到ChatGPT背后自然語言技術有那些?
(資料圖片僅供參考)
了解到一般AI系統的工作流程
老規矩,你覺得本文不錯,點贊、關注一下,鼓勵鼓勵勇哥!
ChatGPT是OpenAi 在12 月 1 日上線的一套在線人機聊天產品,而這套產品這幾天已經突破上100萬的,可謂是火得不要不要的了,但勇哥總結其火的背后主要有這么幾方面的因素:
OpenAi 背后的大佬是微軟
ChatGPT之別被姓馬的夸贊,起到了很好的宣傳
OpenAi 這套產品自身從技術+架構方面有新的突破
各位網友心中都有一個未來科技夢
ChatGPT不對中國區開放,但是支持中文(這點細品....)
在這里勇哥主要站在產品自身的技術和架構方面的突破來給大家說一說,先說一說ChatGPT能做什么,我簡單的歸類了一下功能,包括:
知識問答
知識點解答
數學題求解
.....
文學創作
寫作文
寫詩
寫小說
寫郵件
......
程序創作
寫代碼
改BUG
......
下面這張圖是OpenAi官網上的一張說明圖,但是這張圖只說明了其系統的模型(PS:這里的模型大家可以簡單理解成一對特殊的數據)訓練和應用流程:
上圖并沒有說明太多這樣系統的技術架構,那么勇哥在這里來給大家腦補一下,一般這種系統的數據流是如何進行流轉的:
ChatGPT是一個聊天系統,用戶輸入一句話,那么ChatGPT就需要依據用戶輸入的信息反饋相關內容,比如上述用戶輸入“背《觀滄?!?,系統接收到信息后,就經過以下處理,來為用戶生產相對準確的答案:
Li處理:既語言識別(Language identification),ChatGPT是面向中國區之外的用戶,因此用戶輸入的信息有多種語言,至于是那種語言需要先進行識別。識別之后既可以確定在PPO中使用的是中文、還是英文、還是其它模型數據。
Ea處理:既情感分析(Emotional analysis),ChatGPT對于輸入信息進行了多中情感分析,如果情感不符合正能量方面的要求,ChatGPT會自動拒絕回答相關用戶問題。這點也是非常必要的。Ea處理也需要基于PPO模型庫來分析計算。
Ei處理:既抽取信息 (Extract information),從用戶輸入的信息中提取關鍵特征,為下一步準備數據
NER處理:既命名實體識別(Named entity recognition),負責提取其中的人名、地名、專業術語等信息
SS處理:既句子相似性處理(Sentence Similarity),用戶輸入的信息可能存在錯別字等信息,通過此步可以進行一個修正
TC處理:既文本分類(Text Classification),把用戶輸入得信息進行分類,通過此步分類,好定位到下一步搜索用到的相關搜索索引
Full Search 處理:既全文搜索處理,ChatGPT是一個自然語言+搜索引擎集成的架構,通過Ei處理得到的數據就是全文搜索的輸入數據,比如EI提取出 NER=觀滄海,SS=,TC=文學,那么此步就可以去搜索文學索引中的《觀滄?!?,得到想要的答案。
TG處理:既文本生成(Text Generation),上一步搜索的結果可能有多條數據,那么那一條最符合用戶需求呢?則通過RM模型來進行選取,選取后生成對應的文本內容。
QA處理:既問題解答(Question Answering),把上一步生成的答案進一步轉換成適合問答的形式或格式。
ChatGPT總體架構技術是:NLP是核心 , 搜索輔助,算力是硬核
NLP : 上述流程描述中:Li、Ea、Ei、NER、SS、TC、TG、QA等處理,都需要依賴ChatGPT自身的GPT-3.5自然語言模型數據,而且按照上述流程執行,流程步驟長,上一步的結果就是下一步的輸出,一步出錯,結果必錯。ChatGPT能做到現在這樣已經是相當的了不起了。NLP自然就是ChatGPT的核心了。
搜索:一般自然語言處理后的特征數據,是句子或者詞組,對此搜索,常規的搜索肯定不行,而全文搜索技術自然就成為首選,比如開源流行的Elasticsearch,在里面主要存儲了大量的問題答案、范本數據等。
算力:告訴大家一個事實:一般一個NLP模型數據非常大,上G上T都是非常正常的事情;那么這么大的數據量,每次搜索都要進行與其計算,普通的CPU肯定是更不上的,因此GPU是首選,而且最好是使用云上的GPU算力,才能收縮性更得上。
我在網上看到很多噴ChatGPT答案不正確的(如下圖),其實這個問題在我意料之中,畢竟AI的難度不是一點半點,而且它還依賴硬件等外部因素的影響,所以一步登天很難。展望未來,ChatGPT這一波展現出模型上的突破,但在應用場景上并沒有創新,所以未來ChatGPT除了完善模型(這個是重點)、完善搜索庫等之外,還需要考慮一些創新性的應用場景。
比如:網友問 ChatGPT,霍布斯主張三權分立嗎?很明顯回答的很好,但它的回答卻是錯誤的。
關鍵詞: 技術工作