搶入特斯拉自駕電動車供應鏈 英特磊營收看漲

英特磊 8 日公布 6 月營收 7,693 萬元,月增 8.18% 而年增 15.2%,第 2 季營收 2.24 億元,季增 8.21% 年增 46.84%,月、季營收同步創高,公司並將在 9 月洽談車用防撞系統新單,可望打入 Tesla 發展自駕(ADAS)電動車需求,再創營運高峰。    據了解,英特磊收購 Soitec 後,取得全球最大車用防撞 IC 廠 UMS 供應認證,UMS 打入多數歐系高級車,包括 BMW、Audi、賓士等,同時間,UMS 也是與 Tesla 計畫合作自駕車系統 Mobileye 的主要客戶,在此緊密的車用供應鏈關係中,英特磊持續獲得熱賣車款點火。   英特磊看好第 3 季旺季需求,將獲得新布局的車用防撞雷達、Skyworks 物聯網帶動,因此公司先在 5 月進行歲修調整機台,將對全年營收衝刺動能有關鍵性助益。 ]

本站聲明:網站內容來源於EnergyTrend https://www.energytrend.com.tw/ev/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

支撐馬蜂窩「雙11」營銷大戰背後的技術架構

(馬蜂窩技術原創內容,公眾號 ID: mfwtech)

引言

消費者的狂歡節「雙 11」剛剛過去。在電商競爭環境日益激烈的今天,為了抓住流量紅利,雙 11 打響的已經不僅僅是「促銷戰」,也是「營銷戰」,這對平台的技術支撐能力提出新的要求。

從 2014 年的「318 大促」,到正在進行的 「馬蜂窩雙 11 全球旅行蜂搶節」,馬蜂窩旅遊電商業務的大促已經走過 5 年時間,僅僅是雙 11、暑期、十一黃金周、年終這些關鍵節點的 S 級促銷就張羅了 50 多場,每年上線活動達幾百個。

圖:馬蜂窩11.11全球旅行蜂搶節

 

在這個過程中,馬蜂窩營銷平台也在經歷着優化和改進,不斷探索靈活高效的營銷活動運營開發方式,更好地支撐業務營銷活動的模式創新和投放需求,努力實現平台商家與馬蜂窩旅遊消費者的高效匹配,目前已經形成了一套較為完整的技術體系。

本文將以馬蜂窩營銷活動後台的技術實踐為重點,分享馬蜂窩營銷平台的架構設計思路,希望能讓遇到類似問題的同學有所收穫。

 

一、馬蜂窩營銷平台架構

1. 營銷中心體系

談到大促,大家可能首先會想到的海量數據、高併發、高流量等關鍵詞。其實除了這些,營銷活動數量多、周期短、功能複雜多變等,都是營銷活動運營開發需要應對的挑戰。並且由於我們的很多活動會涉及到一些獎勵或權益的下發,對於安全性的要求也很高。

針對以上問題,馬蜂窩營銷系統的技術架構要具備的核心能力包括:

  • 打造靈活、高效的活動開發模式

  • 提供高可靠、高可用的活動運營支撐

  • 保證營銷活動業務的安全運行

因此,我們本着「平台化、組件化、模塊化」的方法,將營銷體系的架構設計如下:

 

馬蜂窩整體營銷體系分為 B 端和 C 端兩部分。B 端主要面向商家,幫助商家在馬蜂窩招商平台進行大促活動的提報以及商品選取;C 端主要是面向馬蜂窩用戶,平台用戶可以在業務營銷頁面完成活動商品的購買、秒殺、大促紅包贏取等具體的營銷活動參与互動。

2. C 端營銷平台

C 端營銷平台的系統架構主要分為主要分為營銷應用層、中間層、投放平台、搭建平台四個部分。

  • 活動開發平台:營銷平台最核心的部分,也是本文重點。包括前端頁面搭建層「魔方」、業務邏輯層「蜂玩樂園」、獎勵規則控制層「獎池」三部分

  • 投放平台:是指營銷活動頁的投放,包括投放策略、運營策略和機制等

  • 中間件:負責併發處理、分佈式緩存和容災限流等等

  • 營銷應用:包括馬蜂窩大促營銷、業務營銷、新人禮包等

下面,我們重點介紹營銷搭建平台的核心部分——活動開發平台,是如何實現高效、靈活的營銷活動開發模式的。

 

二、活動開發平台的實現

2.1 靈活高效的開發模式

通過上圖可以看到,由 MySQL、ElasticSearch、Redis 組成的數據池在底層為活動開發平台提供支撐。其中 MySQL 為最主要的存儲方案,用於會場搭建配置數據、蜂玩樂園的用戶運行數據、獎池配置數據等的存放。ElasticSearch 是搜索引擎,支持活動頁面商家活動報名與篩選過程。Redis 有 2 種用途:1)活動任務併發鎖;2)獎池的獎品數據存放;3)限流和削峰。

之前我們提到,活動開發的挑戰包括數量多、周期短、功能複雜多變。為了降低開發同學的工作量,提升研發效率,我們將前端和後端組件進行了整合,並封裝成功能模塊對提供服務,形成了目前的魔方、蜂玩樂園、獎池三個子系統,使整體結構更加清晰。每個部分解決的問題和主要功能模塊示意如下:

2.1.1 系統分層

魔方

「魔方」系統希望通過組件、工具的方式完成營銷頁面的搭建,實現統一維護和復用,從而減少前端團隊在活動開發中承載的重複性開發工作。目前為止我們已經在「魔方」中開發了 80 多個組件模塊,例如秒殺模塊、貨架模塊、店鋪模塊、導航模塊、領券模塊、遊戲互動模塊等。

現在,小型活動完全可以不用開發人員支持,只需要業務同學操作即可搭建促銷會場上線活動,提升了活動運營效率,也大大解放了前端開發人員。關於「魔方」更多的細節我們會在後續文章單獨介紹,本文不過多展開。

蜂玩樂園

(1) 邏輯功能抽象

營銷活動的核心是創新和吸引力。每次活動開始前,運營同學都會在創意策劃上絞盡腦汁,盡可能創造出與眾不同的新玩法。這些新穎有趣的遊戲玩法,可以在微信,App 等渠道引起用戶的好奇心和興趣,為賣場拉新,進而創造更多的交易。

隨着「花樣」的不斷翻新,活動開發的複雜度也在增加,有時甚至讓技術同學應接不暇,也促使我們探索更加高效的開發方式。

我們開始思考在複雜多變的活動玩法下,是否潛藏着一些不變的模式和規則?通過對不同業務活動模式的分析和抽象,我們將活動的流程和用戶的行為進行了一個有趣的類比:

  • 首先,開發活動就創建了一個「樂園」

  • 我們會根據不同的「規則」去設計每一個「活動」,激發潛在「參与者」的興趣,或建立他們希望贏得獎勵的期待。

  • 進入活動后,我們會驗證參与者「身份」,和需要滿足這次活動的「條件」,來確定他是否可以開始。

  • 活動開始時,參与者參与一次活動需要發生的行為,就是在完成「任務」

  • 完成「任務」后,為參与者發放相應的「權益」或「獎勵」。

這個類比模型在歷屆促銷活動中進行了推演,結果显示基本是通用的,但完成任務可能伴隨獎勵服務,也可能沒有,由具體業務需求決定。舉個例子,在一場紅包裂變的營銷活動中有一個需求是下紅包雨,用戶可以點擊掉下來的紅包領取相應的紅包獎勵。那麼「領取」這個動作就可以視為活動中的一個任務;另一個需求是每當用戶成功邀請一位好友后就可以在任務中心領取一個邀請紅包獎勵,那麼我們可以把在任務中心領取邀請紅包也看成一個任務。

這兩個任務有一個共同的特點就是觸發后都有紅包獎勵,只是在第二個場景中的任務,本質上是用戶發起了一個請求。

經過進一步的梳理、規整,我們抽象出了「參与者」、「活動」、「任務」、「獎品」等業務邏輯功能。

(2) 技術實現

蜂玩樂園將每一個業務邏輯功能收歸到一個唯一的入口和統一的體系中,形成獨立的功能組件模塊,如數據請求模塊、自定義數據配置模塊、驗證器模塊 、執行器模塊、獎勵服務模塊等。每個活動的任務開發都可以選擇模塊配置,模塊配置信息以 yaml. 的格式進行統一管理,這樣的配置具有靈活性、擴展性和可復用性。

在使用的時候解析配置數據,並向組件註冊中心註冊該任務所需要的組件模塊,再按照定義好的順序執行即可。流程如下圖所示:

為大家介紹幾個關鍵模塊的實現。

  • 數據請求模塊

數據請求模塊定義了客戶端與服務端約定好的請求參數規則:

request:
       -
        field:  deviceId
        rule: required  #必填項校驗
        method: post
        message:  deviceId參數錯誤
       -
        field:  sex
        rule: in:[0,1] #範圍校驗
        method: post
        message: 性別範圍錯誤
       -
        field:  phone
        rule:   regex:/^1[3456789]\d{9}$/ #正則校驗
        method: post
        message: 手機號格式錯誤

(i) field – 傳入參數的 key 
(ii) rule – 校驗該參數的規則,目前我們已經實現了一些常用的規則:
(iii) required – 必傳參數

  • in:驗證所傳參數必須在指定範圍內

  • regex:正則表達式校驗 

  • min,max:自定義規則最小和最大長度

  • integer:必須是数字

  • method:定義 GET、POST 請求方式,

(iv) message – 規則驗證失敗返回的錯誤信息。這一層會讀取配置模塊中的請求參數模塊配置內容,將內容解析出來,按照所配置的字段規則做響應的校驗,如校驗通過繼續向下執行,沒有通過則直接返回規則提示。

  • 參數配置模塊

參數配置模塊定義了該任務執行中所需配置的所有靜態數據配置項。營銷活動的特點是多樣性、創新性,所以很難去窮舉各種場景建立一個有針對性的配置中心,因此這裏就為每一個任務單獨開闢了一個沒有結構化的小空間,可根據具體場景的特定需求為任務自由配置,使程序代碼里基本不用再寫各種不合理的硬編碼。

params:
    stockRedPacket:
     amount: 1
     stock: 3
     stockKey:  limit_key
     stockField: limit_key_90
     timeWindow:
       beginTime: "2019-11-06 00:00:00"
       endTime: "2019-11-10 23:59:

以一個用戶開啟紅包的配置信息為例:

(i) stockRedPacket 配置了活動設定的固定庫存與固定金額紅包的業務邏輯

  • amount 金額

  • stock 庫存

  • stockKey、stockField 用來加鎖的字段

(ii) timeWindow 定義了該任務的活動開始和結束時間

 

  • 驗證器模塊

驗證器模塊的功能主要是是對業務或者規則的校驗。它定義了該任務要執行的業務驗證規則,特點是具有單一性、普適性,能提供一種適用於大多數場景的方法。這些驗證規則可以拆解得足夠細,越細則越靈活,得以在不同任務中靈活組裝使用。

validator:
   - MCommon_Validator_TimeWindowValidator
   - MCommon_Validator_AuthValidator
   - MCommon_Validator_LockValidator

  • 這裏使用了活動時間驗證 TimeWindowValidator,不在活動時間內則返回錯誤提示

  • 登陸驗證 AuthValidator,參加活動必須要登錄,前端通過判斷錯誤狀態碼統一跳轉到登陸頁面

  • 併發鎖 LockValidator,避免一個用戶同樣的操作多次提交

  • 取出所有的驗證器,然後通過反射依次按照順序調用,如果其中一個驗證器失敗,則直接返回錯誤信息,終止向下執行。

 

  • 執行器模塊

執行器模塊定義了該任務要執行的一些業務邏輯,比如要執行一段寫日誌的邏輯,要執行一個異步調用的邏輯等,都可以使用此模塊定義一個執行器去執行。

command: MSign_Command
afterCommand: MSign_Command_After

執行器又分為前置 command 和後置 afterComman:

 

  • 如果需要執行獎勵模塊,則先執行前置 command,再執行獎勵邏輯,最後執行後置 afterCommand,最終返回結果

  • 如果沒有獎勵,則先執行前置 command,接着執行後置 afterCommand

 

  • 獎勵服務模塊

獎勵服務模塊決定該任務是否需要執行獎勵發放,如果配置了獎勵,任務在執行時會根據獎勵的配置規則下發獎勵。在我們的實際場景中,主要涉及到的獎勵類型包括獎勵機會、紅包、抽獎、優惠券等:

  • 獎勵機會:有 2 種規則,分別是按固定頻次給用戶初始化機會數,和獎勵增量機會數。

  • 發送紅包:設定固定紅包和隨機紅包,隨機紅包按需求設置發放的概率與用戶群。

  • 抽獎:對接獎池系統,下文詳細介紹。

  • 優惠券:與馬蜂窩優惠中心直接打通,只需要配置優惠券 SN 和渠道號,即可把優惠券發送到用戶卡券。

 

獎池

在營銷活動中,許多場景都涉及用戶抽獎或獎品發放。營銷技術平台因此對獎品發放的整個生命周期進行了抽象和封裝,創建了「獎池」。

(1) 主要功能

獎池的主要功能點包括:

  • 創建獎品池:為每次活動創建一個或多個獎品池

  • 設置獎品:在單一獎品池中均勻放置獎品

  • 用戶抽獎:用戶在單一獎池中抽獎,支持按概率抽獎,支持獎品的發放和領取

  • 中獎統計:包括獎品已發放數量,已領取數量,剩餘數量

如下圖所示,只需創建好獎池,配置好獎品信息,把對應的獎池 ID 填寫到任務,即可實現抽獎功能:

(2) 方案設計

獎池早期的設計非常簡單,獎品實體僅定義「余量」的概念,利用關係型數據庫中單行記錄存儲一次活動的獎品、總量、發放量、余量等數據。在用戶流量較小且均勻的情況下,發放過程平穩正常。每次進行獎品發放時,在單行記錄上進行 update 操作,扣減余量並增加發放量即可。

然而隨着公司業務的發展,一次營銷活動帶來的效果讓我們不得不立刻改進獎池方案。這次營銷活動帶來的流量遠超預期,但獎品數量的配置卻一如往常。當活動開啟后,獎品消耗很快,並在一段時間后被提前抽光。為了不影響用戶體驗,營銷運營同學不得不持續向獎池中補充獎品。

經歷這次問題開發同學發現,獎池提前抽光的原因在於設計中忽略了時間分佈的因素,使獎品抽光的速度只與訪問量相關。因此,大家開始思考如何讓獎品固定且均勻分佈在活動周期內。

通過學習與比較,最終選擇了業界比較通用的方案,使用 Redis 的有序集合(Sorted Set)創建獎池和設置獎品,從而使獎品在活動時間段內均勻分佈,防止提前抽光的情況出現。

(3) 實現算法

 

1. 時間戳:根據獎品的數量和活動時長,為每 1 份獎品設置一個出獎時間戳,這份獎品僅能在這一時間點及之後被抽出。這一步使出獎時間戳盡量均勻分佈在活動時間範圍內。

2. 創建獎品池:為每一組獎品設置一個獎池,在 Redis 創建一個 zset 數據結構,將其中的每 1 份獎品作為 1 個成員(Member),將時間戳作為分值(score)。
3. 放置獎品:使用ZADD 獎池 出獎時間戳 1 份獎品 語法,在 Redis 中布置一個獎品。

4. 抽獎:使用 Sorted Set 的排序方法,每次排序后查看排名第一的獎品,比較當前時間戳與獎品時間戳的大小。如果當前時間晚於或等於出獎時間,則使用 ZREM 指令出獎,否則不出。

示意圖如下:

2.1.2  體系統一

為了讓開發同學只專註於任務的設計開發,我們抽象出「賬戶」的概念,每個任務產生的數據資源會存儲在所在的「賬戶」體系下,使其支撐多個類似的活動。這種設計的好處在於:

(1)同一用戶在參与不同的活動時得到的獎勵都是相互獨立的,不會出現混淆的情況。

(2)之前每次活動都需要單獨創建數據表,活動下線后表不能復用。時間長了造成系統佔用許多無用的數據表。而把數據庫表以抽象的任務形態創建,不針對具體的某一業務類型,就可以使數據表實現復用。這樣我們只專註任務的設計開發,不用再關心數據表的設計。

在營銷大促的活動中,我們也接入了風控中心、併發鎖和限流服務,以保障整個活動的安全和穩定。

2.2 可用性和可靠性

秒殺模塊是大促流量的最高峰。結合業務實際,我們針對這種場景也做了限流和削峰處理。

限流採用的方案是限制時間窗內最大請求數據,用戶再搶會員權益時,第一步會讀取限流配置 key 和 value,判斷單位時間內是否超過限制的最大請求數 value,如果超過則返回信息提示結束請求;如果沒有超過閾值,則進入下一步操作。目前的限流系統只是在應用層面的實現,為了更好地支撐業務發展,後續我們也會接入網關服務,通過 Sentinel 和 Hystrix 做限流熔斷,避免流量進入應用層,提高服務的高可用性。

削峰部分結合實例說明。

以秒殺金卡會員的場景為例,我們會先用 RabbitMQ 承接瞬時的流量洪峰,再平滑地消費所有請求,並提前把庫存數量對應的 Token 寫入 Redis 緩存(這裏我們針對性的對不同的用戶引入了 Token 機制,以保證我們的秒殺商品在時效和庫存上得以保障)。用戶在秒殺時會順序地從 Redis 中 rPop 對應的 Token,避免庫存超賣的情況;用戶拿到 Token 之後再去收銀台下單開通金卡會員,就可以避免流量同一時刻去下單。

隨着業務和技術的發展,系統的不確定性以及流量的預估都更為困難。我們也在不斷學習業界的先進經驗,來更好地提升系統的可用性和可靠性。目前我們正在調研基於 Noah 的「自適應」限流技術並积極推進,以期針對不同的服務器性能以及當前的流量情況進行針對性的限流控制,相信我們會在後續的優化中會做得更好。

2.3 風險控制

目前是接入公司統一的風控中心。在營銷活動需求確定好后,我們會向風控服務中心提供需要風控的業務場景邏輯。風控中心根據業務配置不同策略,給出不同的場景 key。我們只需要在營銷活動任務中的自定義參數配置模塊配置好風控場景 key,就可在獎勵服務模塊自動調用風控接口去校驗用戶,如果識別出是風險用戶則會被攔截,終止活動參与。

可用性和可靠性、風險控制的實現流程如下圖所示:

 

三、近期規劃

1. 完善監控體系

目前對於活動運行中的數據監控,主要依賴數據組的統計與輸出。線上活動的運行情況並不能通過「蜂玩樂園」與「獎池」系統實時並綜合表現出來。

未來會補齊運行時的活動監控功能,通過活動、任務、獎品的運行時數據指標,指導運營同學第一時間調整活動參數,取得最佳運營效果。

2. 服務化改造

營銷基礎平台依舊搭建在單體架構上,部分功能的邊界與職責並不完全清晰。接下來營銷技術平台會進行技術架構的升級與改造,從單體架構轉向微服務架構,使服務能力與開發能效同步提升。

小結

隨着營銷的逐年發展,活動的趣味性和複雜度會一起上升,這需要我們不斷更新對營銷活動的認識。在這過程中也要反覆嘗試新的抽象和重構,通過不斷改進現有系統,支持更多和更好玩的營銷活動,讓馬蜂窩用戶玩兒得更省心,玩兒得更省錢。

本文作者:馬蜂窩電商研發營銷中心團隊劉遠勻、任浩、唐溶波。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

回顧2019年極端天氣事件 全球損失超過1000億美元

環境資訊中心綜合外電;姜唯 編譯;林大利 審校

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

騰訊出資!中國版特斯拉 NextEV 先瞄準中國市場

騰訊和高瓴資本在內等多家中國網路巨頭和金融投資機構共同投資的新能源汽車廠商 NextEV,將成為特斯拉(Tesla)的競爭對手。據路透報導,NextEV 發言人劉吉利表示,已聘請福特前高管 Martin Leach 打造一家全球性汽車廠商,他們還招聘了有在特斯拉、寶馬(BMW)、大眾(VW)和其他主要汽車廠商工作經驗的專家。他強調,NextEV 將先瞄準中國市場,然後走向世界。   NextEV 投資方包括數家非汽車廠商的中國科技公司,且其開發電動車的努力得到中國政府的支持,中國政府最近修改相關法規,允許非汽車廠商投資電動汽車產業。目前已宣布或在考慮投資電動汽車產業的中國科技公司包括阿里巴巴、小米和樂視。   劉吉利表示,NextEV 推出的第一款產品將是一款電動超級跑車,預計該車表現將超過世界上所有採用內燃機的跑車。NextEV 並將於明年推出賽車車型,功率超過1000馬力,加速到時速 100 公里僅需 3 秒。之後 NextEV 還會推出一系列高性能車型。

本站聲明:網站內容來源於EnergyTrend https://www.energytrend.com.tw/ev/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

China .NET Conf 2019-.NET技術架構下的混沌工程實踐

這個月的8號、9號,個人很榮幸參加了China.NET Conf 2019 , 中國.NET開發者峰會,同時分享了技術專題《.NET技術架構下的混沌工程實踐》,給廣大的.NET開發小夥伴介紹混沌工程和高可用性改造實踐。會後大傢伙聚餐的時候,陳計節老師建議大家將各自的議題分享到社區,分享給大家。因此,今天和大家分享我的技術專題《.NET技術架構下的混沌工程實踐》。

先放幾張大會照片:

整個專題主要分為四個部分:

  1. .NET分佈式、微服務架構下的高可用性挑戰
  2. 混沌工程簡介
  3. .NET混沌工程的實踐和成果分享
  4. 展望和規劃

一、.NET分佈式、微服務架構下的高可用性挑戰

目前,我們特來電的技術架構是分佈式、微服務化的,線上超過1000台Server,高可用保障壓力很大:

  • 系統7*24小時運行,不允許宕機,一旦宕機出問題,直接影響全國人民出行;
  • 系統SLA要求99.95% ,全年可宕機時間只有4.38小時;
  • 服務調用鏈路越來越長,依賴越來越複雜,某個環節出問題,都有肯能導致服務雪崩、大規模宕機;
  • 線上遭遇:網絡抖動、內存泄露、線程阻塞、CPU被打爆、 數據庫被打爆、中間件宕機等棘手問題;
  • 每天上百次發布更新,系統高可用性保障壓力非常大;

一張全鏈路監控圖可以反映我們系統的複雜:

 

例如主機CPU被打爆的問題,線上經常會遇到:

經歷了線上各種高可用性問題后,我們做了很多反思和總結:

系統在實現了分佈式、微服務化之後,我們到底有多少把握來保證系統的正常運行?  

如果出現問題,整個分佈式系統會變得非常“混亂”,甚至會引發系統的大規模宕機。

因此,我們有必要在線上事故出現之前,提前識別出系統有哪些弱點和問題,統一管控系統的固有混沌。

這套管控系統固有混沌的方法和體系,就是我們今天要介紹的主角:混沌工程

二、混沌工程簡介

1. 什麼是混沌工程?

通過受控的實驗,掌握系統運行行為的過程,稱為混沌工程。

    混沌工程的典型實踐:Chaos Monkey
     一隻搗亂的猴子,在你的系統裏面上蹦下竄,不停搗亂,直到搞掛你的系統。

    

2. 為什麼需要混沌工程?

   混沌工程可以提升整個系統的彈性。
   通過混沌實驗,可以發現系統脆弱的一面,主動發現這些問題,並解決這些問題

3. 混沌工程怎麼做?

   混沌工程的一般實施步驟:

1 選擇系統正常運行狀態下的可度量指標,作為基準的“穩定狀態” 2 混沌實驗分為實驗組和對照組,都能保持系統的“穩定狀態” 3 對實驗組注入混沌事件,如服務不可用、中間件宕機等混沌事件 4 比較實驗組和對照組“穩定狀態”的差異

   如果混沌實驗前後系統的“穩定狀態”一致,則可以認為系統應對這種混沌事件是彈性的、高可用的。
   相反的,如果打破了系統的穩定狀態,我們就找到了一個系統弱點,然後盡可能地解決它,提升系統的高可用性。

4. 實施混沌工程的推薦原則

  • 明確系統穩定運行的狀態(指標)
  • 混沌事件必須是現實世界可能發生的(合理的)
  • 在生產環境進行混沌實驗 :生產環境可以真實地反映系統的穩定性
  • 持續集成:線上應用每天都在更新,通過持續集成的方式可以不斷髮現問題、解決問題。
  • 最小化影響範圍:線上進行混沌實驗,必須可控,必須確定混沌實驗的最小化影響範圍。

   這裏大家會問:在生產環境上搞混沌實驗,能行嗎?

5. 現實中的混沌工程

  生產環境必須以穩定為前提,因此推薦O2O模式的混沌實驗:即線下演練、線上驗證
  在系統未經過大規模高可用性改造之前,建議首先進行全面的線下演練:

   

   那麼, .NET技術架構下的混沌工程怎麼做?

三、.NET混沌工程的實踐和成果分享

  我們線上系統主要用到了以下.NET技術棧和開源技術:

  • ASP.NET MVC
  • 基於ASP.NET Core的Web運行框架-WRF
  • 基於ASP.NET Web API的分佈式服務網關-SG
  • 基於.NET RPC通訊技術的分佈式微服務平台-HSF
  • 基於RabbitMQ和Kafka的消息應用中心-MAC
  • iBatis.NET & Entity Framework
  • RabbitMQ & RabbitMQ Client for .NET
  • Kafka & Confluent.Kafka
  • Redis
  • Nginx

    在上述.NET 技術架構下,我們梳理了大量的混沌工程事件:

    

    

    

     通過大量的混沌實驗,我們逐步建立了提升系統高可用性的方法論和體系:

     

     .NET技術架構下的高可用性改進-依賴治理、容錯降級     

      業務場景:
      隨着業務複雜度的上升,服務調用鏈路越來越長,鏈路上存在大量不可控的因素:      

    • 網絡抖動,導致服務異常
    • Redis、MQ、DB等中間件不可用,導致服務超時、異常
    • 依賴的服務不可用,直接影響服務調用方  

          

     如何應對:識彆強弱依賴,對弱依賴進行降級,對強依賴有限降級     

    • “用戶有感知” 是強依賴
    • “用戶無感知” 是弱依賴
    • 故障發生時,核心業務有損失的是強依賴,無損失的是弱依賴

           

      .NET技術架構下的高可用性改進-解耦/隔離       

      業務場景:
      核心業務的調用鏈路很長,整個鏈路上包含主流程和輔流程
      輔流程的重要性低,不能因為輔流程的不可用,影響了主流程。

      

       如何應對:

       

       .NET技術架構下的高可用性改進-超時治理        

       業務場景:
       對於服務超時,長時間等待會影響用戶體驗,併發大時還可能造成線程池被打爆。
       同時可能產生服務級聯反應,導致大範圍服務雪崩。

              

        應對方案:
        超時時間設置:服務剛上線時,可以根據壓測情況預估一個值;
        服務上線后再根據實際監控進行修改,比如設置99%的請求響應時間為超時時間。
        超時后的處理策略:
        如果不是核心服務,可直接超時返回失敗。
        如果是核心服務,可以設置相應的重試次數.         

        示例:
        配置服務超時時間
        設置Http請求超時時間
        設置數據庫連接超時、SQL執行超時
        代碼控制超時時間(例如:Polly的Timeout策略)

      .NET技術架構下的高可用性改進-重試補償         

        業務場景:
        實際線上應用中,假如遇到網絡抖動、發布重啟、數據庫阻塞超時等情況,都有可能引起服務調用失敗。         

        應對方案:
        通過失敗重試、異常后的補償,盡可能地保證業務可用。
        重試情況下:業務要保證冪等性、保證最終一致性。        

        示例:
        服務失敗重試策略
        消息發送、消費失敗重試、補償
        代碼層面失敗重試補償(例如:Polly的Retry策略)

      高可用改進還有很多技巧,這裏不一一詳細給大家贅述了。

      通過對系統進行全面的高可用性改進,提升了我們對線上系統的信心!

四、 展望和規劃

    2019年,我們啟動了混沌工程實踐,逐步建立了混沌工程的自有方法論和體系,通過近一年的混沌工程實踐,混沌工程文化逐漸被開發團隊所認可。目前,混沌工程已經逐步過渡到線上生產環境進行(這來自於足夠的信心和把握)。但這隻是一個起步,未來:

  • 正式的混沌工程團隊:通過多團隊配合、保障資源的持續投入
  • 覆蓋所有的關鍵核心應用:讓混沌工程深入到每個產品
  • 堅持O2O混沌工程實踐:線下演練、線上驗證,更可控
  • 混沌事件注入工具:ChaosBlade for .NET,工具讓混沌工程更高效
  • 持續的混沌實驗:持續進行、持續改進

    目標:通過混沌工程揭示問題、解決問題、形成閉環,不斷提升系統高可用性。

以上是本次China.NET Conf 2019的技術專題,分享給大家。

 

周國慶

2019/11/15

 

 

 本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

Magicodes.Pay,打造開箱即用的統一支付庫,已提供ABP模塊封裝

Magicodes.Pay,打造開箱即用的統一支付庫,已提供ABP模塊封裝

簡介

Magicodes.Pay,是心萊科技團隊提供的統一支付庫,相關庫均使用.NET標準庫編寫,支持.NET Framework以及.NET Core。目前已提供Abp模塊的封裝,支持開箱即用。

Nuget

新的包

 

 

已棄用的包,不再更新

 

 

主要功能

Magicodes.Pay,是心萊科技團隊提供的統一支付庫,相關庫均使用.NET標準庫編寫,支持.NET Framework以及.NET Core。目前已提供Abp模塊的封裝,支持開箱即用。目前支持以下支付方式和功能:

  • 支付寶支付

    • APP支付

    • Wap支付

  • 支付寶國際支付

    • 支持分賬

  • 微信支付

    • 小程序支付

    • APP支付

    • 訂單查詢

    • 企業付款(提現)

    • 退款申請

    • 普通紅包

  • 通聯支付

    • 小程序支付

  • 統一支付回調處理

  • 支持日誌函數注入(不依賴支付庫)

  • 支持支付配置函數注入,以便於支持自定義配置獲取邏輯,以應用於不同的場景(比如從配置文件、用戶設置獲取配置,或者多租戶支持)

  • 針對ABP提供模塊封裝,添加模塊依賴即可立即使用。主要包括:

    • 支付渠道註冊(IPaymentRegister)

    • 支付回調邏輯處理(IPaymentCallbackAction)

    • 統一支付服務實現(IToPayService)

    • 統一支付服務封裝(見IPayAppService)

    • 支付管理器封裝(IPaymentManager),包含:

    • 交易日誌封裝,自動記錄客戶端信息以及自動異常處理和記錄

    • 僅需編寫一次回調邏輯,即可支持多個支付渠道

    • 業務參數支持更大長度(500)

開始使用

如果使用Abp相關模塊,則使用起來比較簡單,具體您可以參考相關單元測試的編寫。主要有以下步驟:

  1. 引用對應的Abp支付的Nuget包 如果僅需某個支付,僅需引用該支付的包。下面以通聯支付為例,我們需要在工程中引用此包:

  2. 添加模塊依賴 在對應工程的Abp的模塊(AbpModule)中,添加對“AbpAllinpayModule”的依賴,如:

 [DependsOn(typeof(AbpAllinpayModule))]
  1. 在DbContext中添加名為“TransactionLogs”的DbSet 整個支付過程中(無論是支付成功還是出現異常),均會記錄交易日誌。交易日誌會記錄交易過程中的一些信息,比如客戶端信息、交易參數、自定義參數以及異常信息。因此我們需要針對EF添加對TransactionLog的支持。需要在DbContext中添加的完整代碼如下所示:

public DbSet<TransactionLog> TransactionLogs { get; set; }
  1. 註冊回調邏輯 我們需要實現“IPaymentCallbackAction”接口來編寫自定義的回調邏輯。如以下示例所示:

public class TestPaymentCallbackAction : IPaymentCallbackAction
    {
        /// <summary>
        /// 業務Key
        /// </summary>
        public string Key { get; set; } = "繳費支付";

        /// <summary>
        /// 執行回調
        /// </summary>
        /// <returns></returns>
        public async Task Process(IUnitOfWorkManager unitOfWork, TransactionLog transactionLog)
        {
            var data = transactionLog.CustomData.FromJsonString<JObject>();
            //業務處理

            await Task.FromResult(0);
        }
    }

注意Key不要重複。

  1. 向容器中註冊回調邏輯

我們可以將回調邏輯寫在一個公共的程序集,然後使用以下代碼進行註冊:

 IocManager.IocContainer.Register(
                //註冊自定義支付回調邏輯
                Classes.FromAssembly(typeof(ApplicationCoreModule).GetAssembly())
                    .BasedOn<IPaymentCallbackAction>()
                    .LifestyleTransient()
                    .Configure(component => component.Named(component.Implementation.FullName))
                    .WithServiceFromInterface()
            );

除了上面的方式,我們還可以通過注入IPaymentManager對象,通過其RegisterCallbackAction方法來註冊自定義的回調邏輯。

  1. 發起支付

通過容器獲得IPayAppService,然後調用Pay方法即可。也可以自行封裝:

public async Task<object> Payment(PaymentInput input)
        {
            return await _payAppService.Pay(new PayInputBase()
            {
                Body = $"{input.Name} {input.ChargeProjectName}",
                CustomData = input.ToJsonString(),
                Key = "繳費支付",
                OpenId = input.OpenId,
                Subject = input.ChargeProjectName,
                TotalAmount = input.Amount,
                PayChannel = input.PayChannel
            });
        }

通過IPayAppService統一支付有如下好處:

  • 統一支付(無論支付寶還是微信各種端的支付,均可統一)

  • 自動記錄交易日誌以及進行相關邏輯處理

  • 自定義數據依賴交易日誌進行存儲,而不依賴支付渠道,因此支持無業務參數的支付渠道,也支持存儲更多自定義數據

非ABP集成

請參考Abp相關模塊的封裝或者歷史代碼。

官方訂閱號

關注“麥扣聊技術”訂閱號免費獲取:

  • 最新文章、教程、文檔

  • 視頻教程

  • 基礎版免費授權

  • 模板

  • 解決方案

  • 編程心得和理念

官方博客/文檔站

其他開源庫地址

 

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

澳洲野火肆虐動物缺糧 政府空投糧食救援

摘錄自2020年1月13日公視報導

澳洲最近野火燎原,專家估計至少有8億隻野生動物被燒死或受到影響,澳洲當局星期一宣布將投入5000萬澳幣,約合10億新台幣,作為搶救野生動物與復原棲地的經費,而在新南威爾斯則已經空投兩噸的蔬菜糧食,讓當地瀕危的刷尾袋鼠等物種果腹救命。

從直升機上將一箱箱紅蘿蔔和蕃薯空投到地面,攝影機隨後捕捉到小型瀕危的刷尾岩袋鼠現身,抱著救命的糧食啃了起來。為了搶救倖存的野生動物,相關單位已經在國家公園內空投兩噸的蔬菜糧食。

澳洲當局同時在星期一宣布將砸下5000萬澳幣,約合10億台幣,作為救助野生動物的經費,澳洲環境部長表示,其中一半將用於野生動物的醫療照顧與安置,並致力復原被野火燒毀的棲地;另一半將用來搶救面臨生存危機的野生動物。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

新品牌效應 台灣電動機車買氣加溫

台灣中央與地方政府推動電動機車多年,今年因為新品牌Gogoro加入市場而加強了業者間的競爭意識,同時帶動了消費者的買氣。

Gogoro的電動機車Smartscooter今年七月正式上市。在十月祭出降價策略後,十月的銷售量達680輛,比九月成長了106%,已是當月台北市機車掛牌數量第四名。台北市是目前Gogoro相關服務最完善的地區,除了有較密集的電池交換站外,也開始嘗試與超商業者合作,讓騎士能以超商為據點交換電池。

在Gogoro加入市場後,台灣電動機車的需求整體也隨之升高。今年十月,台灣整體電動車掛牌輛創下2012年元月開始推行電動機車以來的新高;電動車相關概念股的股價也跟著成長,後勢可期。

本站聲明:網站內容來源於EnergyTrend https://www.energytrend.com.tw/ev/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

決策樹(上)-ID3、C4.5、CART

參考資料(要是對於本文的理解不夠透徹,必須將以下博客認知閱讀,方可全面了解決策樹):

1.

2.

3.

決策樹是一個非常常見並且優秀的機器學習算法,它易於理解、可解釋性強,其可作為分類算法,也可用於回歸模型。本文將分三篇介紹決策樹,第一篇介紹基本樹(包括 ID3、C4.5、CART),第二篇介紹 Random Forest、Adaboost、GBDT,第三篇介紹 Xgboost 和 LightGBM。

在進入正題之前,先讓我們了解一些有關信息論的知識!

信息論

1.信息熵

在決策樹算法中,熵是一個非常非常重要的概念。一件事發生的概率越小,我們說它所蘊含的信息量越大。比如:我們聽女人能懷孕不奇怪,如果某天聽到哪個男人懷孕了,我們就會覺得emmm…信息量很大了。

所以我們這樣衡量信息量:

 

 其中,P(y)是事件發生的概率。信息熵就是所有可能發生的事件的信息量的期望:

表達了Y事件發生的不確定度。

決策樹屬性劃分算法

眾所周知,決策樹學習的關鍵在於如何選擇最優劃分屬性,一般而言,隨着劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的“純度”越來越高。

1.ID3

(1)思想

從信息論的知識中我們知道:信息熵越大,從而樣本純度越低,。ID3 算法的核心思想就是以信息增益來度量特徵選擇,選擇信息增益最大的特徵進行分裂。算法採用自頂向下的貪婪搜索遍歷可能的決策樹空間(C4.5 也是貪婪搜索)。

(2)劃分標準(詳細過程以及公式推導見西瓜書即可)

ID3算法使用信息增益為準則來選擇劃分屬性,“信息熵”(information entropy)是度量樣本結合純度的常用指標,假定當前樣本集合D中第k類樣本所佔比例為pk,則樣本集合D的信息熵定義為:

假定通過屬性劃分樣本集D,產生了V個分支節點,v表示其中第v個分支節點,易知:分支節點包含的樣本數越多,表示該分支節點的影響力越大。故可以計算出劃分后相比原始數據集D獲得的“信息增益”(information gain)。

信息增益越大,表示使用該屬性劃分樣本集D的效果越好,因此ID3算法在遞歸過程中,每次選擇最大信息增益的屬性作為當前的劃分屬性。

(3)缺點

  • ID3 沒有剪枝策略,容易過擬合;
  • 信息增益準則對可取值數目較多的特徵有所偏好,類似“編號”的特徵其信息增益接近於 1;
  • 只能用於處理離散分佈的特徵;
  • 沒有考慮缺失值。

 

2. C4.5

2.1 思想

C4.5 算法最大的特點是克服了 ID3 對特徵數目的偏重這一缺點,引入信息增益率來作為分類標準。

C4.5 相對於 ID3 的缺點對應有以下改進方式:

  • 引入悲觀剪枝策略進行后剪枝;
  • 引入信息增益率作為劃分標準;
  • 可以處理連續值:將連續特徵離散化,假設 n 個樣本的連續特徵 A 有 m 個取值,C4.5 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點,分別計算以該劃分點作為二元分類點時的信息增益,並選擇信息增益最大的點作為該連續特徵的二元離散分類點;
  • 可以處理缺失值:對於缺失值的處理可以分為兩個子問題:
  • 問題一:在特徵值缺失的情況下進行劃分特徵的選擇?(即如何計算特徵的信息增益率)
  • 問題二:選定該劃分特徵,對於缺失該特徵值的樣本如何處理?(即到底把這個樣本劃分到哪個結點里)
  • 針對問題一,C4.5 的做法是:對於具有缺失值特徵,用沒有缺失的樣本子集所佔比重來折算;
  • 針對問題二,C4.5 的做法是:將樣本同時劃分到所有子節點,不過要調整樣本的權重值,其實也就是以不同概率劃分到不同節點中。

2.2 劃分標準

利用信息增益率可以克服信息增益的缺點,其公式為:

 

注意:信息增益率對可取值較少的特徵有所偏好(分母越小,整體越大),因此 C4.5 並不是直接用增益率最大的特徵進行劃分,而是使用一個啟髮式方法:先從候選劃分特徵中找到信息增益高於平均值的特徵,再從中選擇增益率最高的。

2.3 剪枝策略(預剪枝+后剪枝)

決策樹解決過擬合的主要方法:剪枝、隨機森林

2.3.1 預剪枝

(1) 在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化性能提升,則停止劃分並將當前結點標記為恭弘=叶 恭弘結點。在構造的過程中先評估,再考慮是否分支。衡量決策樹泛化性能提升的方法:

  • 節點內數據樣本低於某一閾值;
  • 所有節點特徵都已分裂;
  • 節點劃分前準確率比劃分后準確率高。

(2)優缺點

  • 降低過擬合風險、顯著減少決策樹的訓練時間開銷和測試時間開銷。
  • 預剪枝基於“貪心”策略,有可能會帶來欠擬合風險。
2.3.2 后剪枝(C4.5採用的是基於后剪枝的悲觀剪枝方法)

(1) 后剪枝是先從訓練集生成一棵完整的決策樹,然後自底向上地對非恭弘=叶 恭弘子結點進行考察,若將該結點對應的子樹替換為恭弘=叶 恭弘結點能帶來決策樹泛化性能提升,則將該子樹替換為恭弘=叶 恭弘結點。

(2) 后剪枝決策樹的欠擬合風險很小,泛化性能往往優於預剪枝決策樹。但同時其訓練時間會大的多。

2.4 缺點

  • 剪枝策略可以再優化;
  • C4.5 用的是多叉樹,用二叉樹效率更高;
  • C4.5 只能用於分類;
  • C4.5 使用的熵模型擁有大量耗時的對數運算,連續值還有排序運算;
  • C4.5 在構造樹的過程中,對數值屬性值需要按照其大小進行排序,從中選擇一個分割點,所以只適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時,程序無法運行。

 

3. CRAT

ID3 和 C4.5 雖然在對訓練樣本集的學習中可以盡可能多地挖掘信息,但是其生成的決策樹分支、規模都比較大,CART 算法的二分法可以簡化決策樹的規模,提高生成決策樹的效率。

Cart算法的兩個主要步驟為:(1)將樣本遞歸劃分進行建樹過程 ; (2)用驗證數據進行剪枝.

3.1 思想

CART 在 C4.5 的基礎上進行了很多提升。

  • C4.5 為多叉樹,運算速度慢,CART 為二叉樹,運算速度快;
  • C4.5 只能分類,CART 既可以分類也可以回歸;
  • CART 使用 Gini 係數作為變量的不純度量,減少了大量的對數運算;
  • CART 採用代理測試來估計缺失值,而 C4.5 以不同概率劃分到不同節點中;
  • CART 採用“基於代價複雜度剪枝”方法進行剪枝,而 C4.5 採用悲觀剪枝方法。

3.2 劃分標準(Cart分類樹、Cart回歸樹)

首先我們來看看Cart分類樹!

CART決策樹(分類樹)使用“基尼指數”(Gini index)來選擇劃分屬性,基尼指數反映的是從樣本集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此Gini(D)越小越好,這和信息增益(率)正好相反,基尼指數定義如下:

進而,使用屬性α劃分后的基尼指數為:

 

接下來讓我們通過一個實例,從實例中去了解如何創建一棵Cart分類樹。 如下圖所示

在上述圖中,共10條數據,屬性有3個,分別是有房情況(離散屬性且2種取值)婚姻狀況(離散屬性且有3種取值)年收入(連續屬性),拖欠貸款者屬於分類的結果。

對於離散屬性(2種取值與多種取值)連續屬性我們該如何進行Gini係數的計算以及劃分呢?

1.首先來看有房情況這個屬性,因為該屬性只有“是”“否”兩種取值,所以其Gini係數比較容易計算,那麼按照它劃分后的Gini指數計算如下:

 

 2.接下來對婚姻狀況進行計算,我們發現婚姻狀況一共有三種取值:單身、已婚、離異,又因為Cart分類樹只能是二叉樹,所以我們只能對多種取值的屬性進行組合:

 

 3.最後對年收入屬性進行計算。年收入屬性為連續值,Cart分類樹又是如何對連續值屬性進行處理的呢?(Cart分類樹對於連續值的處理其實和C4.5算法對於連續值的處理類似,只不過Cart使用Gini指數,C4.5使用信息增益率)

將連續特徵離散化,假設 n 個樣本的連續特徵 A 有 m 個取值,C4.5/Cart 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點,分別計算以該劃分點作為二元分類點時的信息增益/Gini係數,並選擇信息增益最大/Gini係數最小的點作為該連續特徵的二元離散分類點;

通過計算我們可以發現,(單身或離異,已婚) 和 (<=97,>97)這種劃分其Gini係數最小(假設我們選擇年收入)。所以根節點分裂為兩個子節點,其中一個為恭弘=叶 恭弘子結點。對於另外一個結點我們繼續使用上述方法在婚姻狀況、有房情況中選擇最佳特徵以及最佳切分點,反覆循環直到滿足條件為止。

 接下來讓我們看看Cart回歸樹(最小二乘回歸樹)

眾所周知,決策樹學習的關鍵在於如何選擇最優劃分屬性,然而對於Cart回歸樹而言,還有一個重要的問題就是:如何決定樹中恭弘=叶 恭弘節點的輸出值?

回歸樹的模型可以表示如下:

上式中,  為對應恭弘=叶 恭弘子節點的輸出值,  為指示函數,當x屬於  時,值為1,否則為0。

回歸樹的建立過程,優化策略或損失函數為最小化平方誤差,即最小化下式:

 

(1)問題1:怎樣對輸入空間進行劃分?即如何選擇劃分點?

CART回歸樹的建樹過程是二分裂節點,並且保證分裂的結果符合最小化平方誤差,這裏採用了比較暴力的遍曆法,即遍歷所有特徵j和每個特徵的多個閾值s,以平方誤差最小的組合作為分裂依據,數學描述如下:

 
上式中,R為以s為分割點分割的左右子樹樣本合集,c為該集合的均值。

確定了j,s后,就可以就行分裂了,將樹分裂為左右兩個區域:

(2)問題2:如何決定樹中恭弘=叶 恭弘節點的輸出值?

分裂完畢以後,要確定每個恭弘=叶 恭弘子結點的輸出值,使用類別均值:

接下來讓我們通過一個實例,從實例中去了解如何創建一棵Cart回歸樹。 如下圖所示

3.3 剪枝策略(簡略版本,具體推導見李航 統計學習方法)

採用一種“基於代價複雜度的剪枝”方法進行后剪枝,這種方法會生成一系列樹,每個樹都是通過將前面的樹的某個或某些子樹替換成一個恭弘=叶 恭弘節點而得到的,這一系列樹中的最後一棵樹僅含一個用來預測類別的恭弘=叶 恭弘節點。然後用一種成本複雜度的度量準則來判斷哪棵子樹應該被一個預測類別值的恭弘=叶 恭弘節點所代替。這種方法需要使用一個單獨的測試數據集來評估所有的樹,根據它們在測試數據集熵的分類性能選出最佳的樹。

3.4類別不平衡

CART 的一大優勢在於:無論訓練數據集有多失衡,它都可以將其消除不需要建模人員採取其他操作。

CART 使用了一種先驗機制,其作用相當於對類別進行加權。這種先驗機制嵌入於 CART 算法判斷分裂優劣的運算里,在 CART 默認的分類模式中,總是要計算每個節點關於根節點的類別頻率的比值,這就相當於對數據自動重加權,對類別進行均衡。

4.總結

最後通過總結的方式對比下 ID3、C4.5 和 CART 三者之間的差異。

除了之前列出來的劃分標準、剪枝策略、連續值確實值處理方式等之外,我再介紹一些其他差異:

  • 劃分標準的差異:ID3 使用信息增益偏向特徵值多的特徵,C4.5 使用信息增益率克服信息增益的缺點,偏向於特徵值小的特徵,CART 使用基尼指數克服 C4.5 需要求 log 的巨大計算量,偏向於特徵值較多的特徵。
  • 使用場景的差異:ID3 和 C4.5 都只能用於分類問題,CART 可以用於分類和回歸問題;ID3 和 C4.5 是多叉樹,速度較慢,CART 是二叉樹,計算速度很快;
  • 樣本數據的差異:ID3 只能處理離散數據且缺失值敏感,C4.5 和 CART 可以處理連續性數據且有多種方式處理缺失值;從樣本量考慮的話,小樣本建議 C4.5、大樣本建議 CART。C4.5 處理過程中需對數據集進行多次掃描排序,處理成本耗時較高,而 CART 本身是一種大樣本的統計方法,小樣本處理下泛化誤差較大 ;
  • 樣本特徵的差異:ID3 和 C4.5 層級之間只使用一次特徵,CART 可多次重複使用特徵;
  • 剪枝策略的差異:ID3 沒有剪枝策略,C4.5 是通過悲觀剪枝策略來修正樹的準確性,而 CART 是通過代價複雜度剪枝

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理
【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益

特斯拉盼於德國設廠 因環保問題遭抗議

摘錄自2020年01月19日中央通訊社德國報導

美國電動車大廠特斯拉(Tesla)計畫在柏林郊區設立超級工廠,大約250名德國民眾今天(19日)到設廠地點抗議,宣稱這樣的建設將會危害區域內的水源供應和野生生物。

特斯拉去年11月宣布,計畫在德國東部布蘭登堡邦(Brandenburg)市鎮格林海德(Grünheide)設立他們在歐洲的第一座工廠。政界、工會、產業團體都對特斯拉表示歡迎,宣稱那會為地區帶來工作機會,但因為對環境保護的憂慮,讓數百名當地人在今天走上街頭。

在此之前,布蘭登堡邦水利當局16日警告,預定興建的特斯拉工廠,將使得「飲水供應以及工廠廢水排放,出現廣泛及嚴重的問題。」

同時,民眾也為附近道路和村落之間的交通憂心不已,他們預期交通未來會有「巨幅」成長,他們為此表達抗議。

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※帶您來了解什麼是 USB CONNECTOR  ?

※自行創業 缺乏曝光? 下一步"網站設計"幫您第一時間規劃公司的門面形象

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,網站設計公司幫您達到更多曝光效益