C++算法之海量數(shù)據(jù)處理方法的總結(jié)分析

更新時(shí)間：2013年05月29日 09:51:36 作者：

本篇文章是對(duì)海量數(shù)據(jù)處理方法進(jìn)行了詳細(xì)的總結(jié)與分析，需要的朋友參考下

海量數(shù)據(jù)處理中常用到的技術(shù)
1. Bloom Filtering
基本的Bloom Filtering支持快速的插入和查找操作，是一種hash表技術(shù)?；镜臄?shù)據(jù)結(jié)構(gòu)非常簡單，容量為m的位數(shù)組，k個(gè)hash函數(shù)，將輸入的n個(gè)元素存儲(chǔ)在位數(shù)組里面。
每次插入一個(gè)新的元素，先計(jì)算該元素的k個(gè)hash指，將位數(shù)組對(duì)應(yīng)hash值位置為1. 查找某個(gè)元素時(shí)，同樣的先計(jì)算k個(gè)hash值，然后查詢看是否對(duì)應(yīng)位數(shù)組中得k位是否都是1，是則斷定元素存在。
基本的Bloom Filtering算法可以用于允許誤差的快速判重操作。集合的交集、并集的計(jì)算。
Bloom Filtering有個(gè)改進(jìn)的版本counting bloom filtering可以支持?jǐn)?shù)據(jù)的刪除操作，countering bloom filtering和基本的bloom filtering相比，位數(shù)組中每一位的取值擴(kuò)展成多位，基本的bloom filtering用1bit表示一位。插入一個(gè)元素時(shí)，所有的k位都加1，刪除時(shí)都減1，查找時(shí)如果k個(gè)值都大于0則判定為存在。CBF中有個(gè)很重要的參數(shù)，即每一位的位數(shù)為多少?？梢酝ㄟ^理論證明，位數(shù)一般取4就足夠了，可以支持同一個(gè)數(shù)據(jù)插入16次。
bitmap可以看做bloom filtering的特例
2. Hash表技術(shù)
d-left hash hash表負(fù)載均衡技術(shù)。將hash表分成d段，設(shè)計(jì)d個(gè)hash函數(shù)，更具負(fù)載選擇一個(gè)合適的段存放數(shù)據(jù)。查找時(shí)要計(jì)算d個(gè)hash值，分別在d段中找。
常用于統(tǒng)計(jì)次數(shù)。
3. 堆技術(shù)
堆有兩個(gè)典型的應(yīng)用：
多路歸并排序
求TopK
多路歸并排序時(shí)，降序排序時(shí)用最大堆，升序排序用最小堆。
TopK時(shí)，求TopK最大時(shí)，用最小堆，求TopK最小時(shí)用最大堆。求topK最大時(shí)，利用最小堆堆維護(hù)K個(gè)值，當(dāng)新掃描的值大于堆頂元素時(shí)，堆頂元素刪除，插入新的值。這樣掃描完一遍數(shù)據(jù)，既可以求得topK最大。
4. 雙層桶（多層桶）設(shè)計(jì)
hash表技術(shù)是一種direct addr 技術(shù)，但是當(dāng)數(shù)據(jù)范圍分布過廣、且數(shù)據(jù)量非常大的時(shí)候，采用hash表直接direct addr技術(shù)就不行了，這是可以使用多層hash技術(shù)。將原始數(shù)據(jù)范圍分成小段，每一段內(nèi)存可以裝載，段內(nèi)可以使用direct addr table技術(shù)?？梢杂枚鄬臃旨?jí)快速定位到小段。

您可能感興趣的文章:

相關(guān)文章

C++中智能指針如何設(shè)計(jì)和使用
智能指針(smart pointer)是存儲(chǔ)指向動(dòng)態(tài)分配（堆）對(duì)象指針的類，用于生存期控制，能夠確保自動(dòng)正確的銷毀動(dòng)態(tài)分配的對(duì)象，防止內(nèi)存泄露,需要的朋友可以參考下
2012-11-11
C++構(gòu)造函數(shù)+復(fù)制構(gòu)造函數(shù)+重載等號(hào)運(yùn)算符調(diào)用
這篇文章主要介紹了C++構(gòu)造函數(shù)+復(fù)制構(gòu)造函數(shù)+重載等號(hào)運(yùn)算符調(diào)用，文章敘述詳細(xì)，具有一定的的參考價(jià)值，需要的小伙伴可以參考一下
2022-03-03
C語言讀取文件流的相關(guān)函數(shù)用法簡介
這篇文章主要介紹了C語言讀取文件流的相關(guān)函數(shù)用法簡介,包括fread()函數(shù)和feof()函數(shù)的使用,需要的朋友可以參考下
2015-08-08
如何配置?Sublime?Text4為?C++?編輯器
這篇文章主要介紹了配置Sublime Text4為C++編輯器,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2023-06-06
C語言代碼鏈表實(shí)現(xiàn)貪吃蛇游戲
這篇文章主要為大家詳細(xì)介紹了C語言鏈表實(shí)現(xiàn)貪吃蛇游戲，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2021-01-01
C語言開發(fā)中的常見錯(cuò)誤詳解
這個(gè)分欄是對(duì)于使用C語言編程過程中可能會(huì)出現(xiàn)的一些錯(cuò)誤而進(jìn)行的說明，更多的錯(cuò)誤示例將會(huì)在后面的內(nèi)容里進(jìn)行演示。希望這個(gè)分欄的內(nèi)容可以幫助剛學(xué)編程的小白少走一些彎路，以及吸取更多的編碼經(jīng)驗(yàn)
2022-05-05
C語言中printf的兩種輸出對(duì)齊方式
C語言中左對(duì)齊是C語言的默認(rèn)輸出方式,右對(duì)齊是一種特殊的輸出方式,左對(duì)齊和右對(duì)齊都對(duì)應(yīng)著一個(gè)已知的輸出寬度,輸出的字符串根據(jù)字符串的長度在寬度上進(jìn)行補(bǔ)充,補(bǔ)充字符是空格,在使用printf函數(shù)輸出時(shí),需要在格式字符串中使用%-*s和%*s的格式來分別表示
2024-02-02
淺析C++中前置聲明的應(yīng)用與陷阱
以下是對(duì)C++中前置聲明的應(yīng)用與陷阱進(jìn)行了詳細(xì)的分析介紹，需要的朋友參考下
2013-07-07
C基礎(chǔ) 尋找隨機(jī)函數(shù)的G點(diǎn)詳解
下面小編就為大家?guī)硪黄狢基礎(chǔ) 尋找隨機(jī)函數(shù)的G點(diǎn)詳解。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2016-06-06
C語言各種符號(hào)的使用介紹上篇
C 語言的基本符號(hào)就有 20 多個(gè)，每個(gè)符號(hào)可能同時(shí)具有多重含義，而且這些符號(hào)之間相互組合又使得 C 語言中的符號(hào)變得更加復(fù)雜起來
2022-08-08