Python使用RethinkDB總結(jié)
和 MongoDB 類似 RethinkDB 是一個主要用來存儲 JSON 文檔的數(shù)據(jù)庫引擎(MongoDB 存儲的是 BSON),可以輕松和多個節(jié)點(diǎn)連成分布式數(shù)據(jù)庫,非常好用的查詢語言以及支持表的 joins 和 group by 操作等。
昨天試玩了一下 RethinkDB,在一臺虛擬機(jī)上測試,插入2500萬行記錄性能比較穩(wěn)定,維持在 1.5K 行到 2K 行每秒之間,RethinkDB 的數(shù)據(jù)分片(sharding)功能非常簡單,一個點(diǎn)擊就可以完成。下面的安裝和測試在 Ubuntu 12.04.4 LTS Server 版本上完成。
加入 RethinkDB 官方源后安裝:
$ sudo add-apt-repository ppa:rethinkdb/ppa
$ sudo apt-get update
$ sudo apt-get install rethinkdb
拷貝一個例子配置文件后修改 bind 部分以便可以從其他機(jī)器訪問:
$ sudo cp default.conf.sample instances.d/default.conf
$ sudo vi instances.d/default.conf
...
# bind=127.0.0.1
bind=0.0.0.0
...
啟動 rethinkdb:
rethinkdb: default: Starting instance. (logging to `/var/lib/rethinkdb/default/data/log_file')
訪問 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理界面了:
![]() |
如果不喜歡在命令行工作,web 界面還提供了 Data Explorer 在線查詢工具,支持語法高亮、在線函數(shù)提示等,不用額外查幫助文件。
![]() |
要用程序的方式和 rethinkdb 打交道的話就需要安裝客戶端驅(qū)動(client drivers),官方支持的驅(qū)動有 JavaScript, Ruby 和 Python 3種語言,社區(qū)支持的驅(qū)動幾乎包括了 C, Go, C++, Java, PHP, Perl, Clojure, Erlang 等所有主流編程語言。本人用 Python 多一些,所以這里安裝 Python 客戶端驅(qū)動:
$ sudo pip install rethinkdb
測試一下驅(qū)動是否能工作了,如果 import rethinkdb 沒有出錯基本就可以說明模塊安裝成功:
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import rethinkdb
>>>
gene2go.txt 是一個含有基因數(shù)據(jù)的文本文件,大概1000多萬行記錄,格式如下:
#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category (tab is used as a separator, pound sign - start of a comment)
3702 814629 GO:0005634 ISM - nucleus - Component
寫個簡單程序把 gene2go.txt 的數(shù)據(jù)導(dǎo)入到 rethinkdb 里:
# -*- coding: UTF-8 -*-
import os, os.path, sys, re, csv, string
def csv2db():
data = csv.reader(open('gene2go.txt', 'rb'), delimiter='\t')
data.next()
import rethinkdb as r
r.connect('localhost', 28015).repl()
r.db('test').table_create('gene2go').run()
gene2go = r.db('test').table('gene2go')
for row in data:
gene2go.insert({
'tax_id': row[0],
'GeneID': row[1],
'GO_ID': row[2],
'Evidence': row[3],
'Qualifier': row[4],
'GO_term': row[5],
'PubMed': row[6],
'Category': row[7]
}).run(durability="soft", noreply=True)
def main():
csv2db()
if __name__ == "__main__":
main()
相關(guān)文章
victoriaMetrics代理性能優(yōu)化問題解析
這篇文章主要為大家介紹了victoriaMetrics代理性能優(yōu)化問題的解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪2022-04-04
使用sqlplus創(chuàng)建DDL和DML操作技巧
這篇文章主要介紹了使用sqlplus創(chuàng)建DDL和DML操作技巧,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2018-05-05
數(shù)據(jù)庫 SQL千萬級數(shù)據(jù)規(guī)模處理概要
我在前年遇到過過億條的數(shù)據(jù)。以至于一個處理過程要幾個小時的。后面慢慢優(yōu)化,查找一些經(jīng)驗文章。才學(xué)到了一些基本方法。綜合敘之,與君探討之。2009-07-07
ubuntu中使用docker下載華為opengauss數(shù)據(jù)庫超簡單步驟
openGauss是關(guān)系型數(shù)據(jù)庫,采用客戶端/服務(wù)器,單進(jìn)程多線程架構(gòu),支持單機(jī)和一主多備部署方式,備機(jī)可讀,支持雙機(jī)高可用和讀擴(kuò)展,這篇文章主要給大家介紹了關(guān)于ubuntu中使用docker下載華為opengauss數(shù)據(jù)庫超的簡單步驟,需要的朋友可以參考下2024-04-04
顏值與實用性并存的數(shù)據(jù)庫建模工具Chiner教程
這篇文章主要為大家介紹了一款顏值與實用性并存的數(shù)據(jù)庫建模工具Chiner,推薦大家使用,有需要的朋友可以共同學(xué)習(xí)參考下,希望能夠有所幫助,祝大家多多進(jìn)步2022-03-03
數(shù)據(jù)庫分頁查詢語句數(shù)據(jù)庫查詢
關(guān)于分頁 SQL 的資料許多,有的使用存儲過程,有的使用游標(biāo)。本人不喜歡使用游標(biāo),我覺得它耗資、效率低;使用存儲過程是個不錯的選擇,因為存儲過程是顛末預(yù)編譯的,執(zhí)行效率高,也更靈活2014-08-08
openGauss數(shù)據(jù)庫在CentOS上的安裝實踐記錄
這篇文章主要介紹了openGauss數(shù)據(jù)庫在CentOS上的安裝實踐,本文是基于華為云ECS+CentOS 7的openGauss數(shù)據(jù)庫安裝實踐,需要的朋友可以參考下2022-07-07



