使用Python與PostgreSQL的JSON數(shù)據(jù)進行交互
PostgreSQL 自 9.2 版本起原生支持 JSON 數(shù)據(jù)類型,并在后續(xù)版本中不斷增強其功能,現(xiàn)已提供 JSON 和 JSONB 兩種類型、豐富的操作符、索引支持及函數(shù)體系。與此同時,Python 作為數(shù)據(jù)處理的主流語言,與 PostgreSQL 的結合日益緊密。
本文將系統(tǒng)講解如何在 Python 中高效、安全、可維護地與 PostgreSQL 的 JSON 數(shù)據(jù)交互,涵蓋:
- JSON 與 JSONB 的區(qū)別與選型
- 使用
psycopg2和asyncpg等主流驅動 - 自動序列化/反序列化 Python 字典與 JSON
- 復雜查詢:路徑提取、條件過濾、更新操作
- 性能優(yōu)化與索引策略
- 實戰(zhàn)案例:配置存儲、日志分析、動態(tài)表單等
一、PostgreSQL 中的 JSON 類型基礎
參考
- PostgreSQL JSON 函數(shù)文檔:https://www.postgresql.org/docs/current/functions-json.html
- psycopg2 JSON 支持:https://www.psycopg.org/docs/extras.html#json-adaptation
- asyncpg 類型映射:https://magicstack.github.io/asyncpg/current/usage.html#type-conversion
1.1 JSON vs JSONB:關鍵區(qū)別
| 特性 | JSON | JSONB |
|---|---|---|
| 存儲格式 | 文本(保留原始格式) | 二進制(解析后存儲) |
| 是否去重 | 否(保留重復鍵) | 是(僅保留最后一個鍵值) |
| 是否保留順序 | 是 | 否(對象鍵無序) |
| 索引支持 | 不支持(需表達式索引) | 支持 GIN、GiST 索引 |
| 查詢性能 | 較慢(每次需解析) | 快(已解析為內部結構) |
| 存儲空間 | 較大 | 較?。o空白、無重復) |
推薦:除非必須保留原始 JSON 格式(如審計日志),否則一律使用
JSONB。
1.2 常用操作符與函數(shù)
1、路徑提取
->:返回 JSON 對象(仍為 JSONB)
SELECT data->'user'->'name' FROM logs;
->>:返回文本(TEXT)
SELECT data->>'status' FROM orders;
2、條件查詢
檢查鍵是否存在:
SELECT * FROM events WHERE data ? 'error_code';
檢查嵌套路徑:
SELECT * FROM configs WHERE data @> '{"feature": {"enabled": true}}';
3、更新操作
設置字段(PostgreSQL 9.5+):
UPDATE users SET profile = jsonb_set(profile, '{settings,theme}', '"dark"');
二、Python 驅動選擇與配置
2.1 主流驅動對比
| 驅動 | 異步支持 | JSON 自動轉換 | 成熟度 | 適用場景 |
|---|---|---|---|---|
psycopg2 | 否 | 需手動注冊適配器 | 高 | 同步應用、Django、Flask |
psycopg2-binary | 否 | 同上 | 高 | 快速原型、無需編譯 |
asyncpg | 是 | 自動轉換 dict ↔ JSONB | 高 | 異步框架(FastAPI, aiohttp) |
SQLAlchemy + psycopg2 | 否 | 通過 JSON / JSONB 類型自動處理 | 極高 | ORM 場景 |
2.2 PostgreSQL 的 JSONB 與 Python 的結合注意點
PostgreSQL 的 JSONB 與 Python 的結合,為處理半結構化數(shù)據(jù)提供了強大而靈活的方案。通過合理選擇驅動、配置自動轉換、利用索引和操作符,可實現(xiàn):
- 開發(fā)效率高:無需預定義 schema
- 查詢能力強:支持復雜嵌套查詢
- 性能可優(yōu)化:GIN 索引、路徑索引保障效率
但也要謹記:
- 不要濫用 JSON:結構化數(shù)據(jù)仍應使用關系模型
- 保持查詢簡單:避免過度嵌套導致維護困難
- 監(jiān)控性能:定期分析執(zhí)行計劃
三、使用 psycopg2 處理 JSON
3.1 基礎連接與自動轉換
默認情況下,psycopg2 將 JSONB 列返回為字符串。需注冊適配器實現(xiàn)自動轉換:
import json
import psycopg2
from psycopg2.extras import Json
# 注冊自動轉換:DB → Python
def _json_decode(data, cur):
if data is None:
return None
return json.loads(data)
# 注冊適配器
psycopg2.extensions.register_type(
psycopg2.extensions.new_type(
(3802,), "JSONB", _json_decode # 3802 是 JSONB 的 OID
)
)
# 連接數(shù)據(jù)庫
conn = psycopg2.connect(
host="localhost",
database="mydb",
user="user",
password="pass"
)
3.2 插入 JSON 數(shù)據(jù)
data = {
"user_id": 123,
"action": "login",
"metadata": {
"ip": "192.168.1.1",
"device": "mobile"
}
}
cur = conn.cursor()
cur.execute(
"INSERT INTO events (event_data) VALUES (%s)",
(Json(data),) # 使用 Json 包裝器
)
conn.commit()
注意:必須使用
psycopg2.extras.Json,否則會被當作字符串插入。
3.3 查詢并自動反序列化
cur.execute("SELECT id, event_data FROM events WHERE id = %s", (1,))
row = cur.fetchone()
print(type(row[1])) # <class 'dict'>
print(row[1]['metadata']['ip']) # 192.168.1.1
得益于前面的適配器注冊,event_data 自動轉為 dict。
3.4 復雜查詢示例
1、提取嵌套字段
cur.execute("""
SELECT
id,
event_data->>'action' AS action,
event_data->'metadata'->>'ip' AS ip
FROM events
WHERE (event_data->'metadata'->>'device') = %s
""", ("mobile",))
for row in cur:
print(f"Action: {row[1]}, IP: {row[2]}")
2、條件過濾(使用 @>)
# 查找包含特定子結構的記錄
filter_condition = {"metadata": {"device": "mobile"}}
cur.execute(
"SELECT * FROM events WHERE event_data @> %s",
(Json(filter_condition),)
)
四、使用 asyncpg 處理 JSON(異步場景)
asyncpg 對 JSONB 支持更友好,默認自動轉換。
4.1 基礎用法
import asyncio
import asyncpg
async def main():
conn = await asyncpg.connect(
host='localhost',
database='mydb',
user='user',
password='pass'
)
# 插入:直接傳 dict
data = {"user_id": 123, "tags": ["a", "b"]}
await conn.execute(
"INSERT INTO items (payload) VALUES ($1)",
data # asyncpg 自動序列化為 JSONB
)
# 查詢:自動反序列化為 dict/list
row = await conn.fetchrow("SELECT payload FROM items LIMIT 1")
print(type(row['payload'])) # <class 'dict'>
print(row['payload']['tags']) # ['a', 'b']
await conn.close()
asyncio.run(main())
優(yōu)勢:無需額外配置,開箱即用。
4.2 復雜查詢
# 使用路徑操作符
rows = await conn.fetch("""
SELECT
id,
payload->'user'->>'name' AS name
FROM profiles
WHERE payload @> $1
""", {"settings": {"visible": True}})
for r in rows:
print(r['name'])
五、使用 SQLAlchemy ORM 處理 JSON
SQLAlchemy 通過 JSON 和 JSONB 類型提供 ORM 支持。
5.1 模型定義
from sqlalchemy import create_engine, Column, Integer
from sqlalchemy.dialects.postgresql import JSONB
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
Base = declarative_base()
class Event(Base):
__tablename__ = 'events'
id = Column(Integer, primary_key=True)
data = Column(JSONB) # 使用 JSONB
engine = create_engine('postgresql://user:pass@localhost/mydb')
Session = sessionmaker(bind=engine)
5.2 CRUD 操作
session = Session()
# 插入
event = Event(data={
"type": "click",
"element": {"id": "btn1", "class": "primary"}
})
session.add(event)
session.commit()
# 查詢(自動轉為 dict)
e = session.query(Event).first()
print(e.data['element']['id']) # btn1
# 條件查詢(使用 .op() 調用操作符)
from sqlalchemy import text
results = session.query(Event).filter(
Event.data.op('@>')({'type': 'click'})
).all()
5.3 使用專用函數(shù)(SQLAlchemy 1.4+)
from sqlalchemy.dialects.postgresql import JSONB
# 提取字段
session.query(
Event.data['user']['name'].astext.label('username')
).all()
六、高級技巧與最佳實踐
6.1 動態(tài)構建 JSON 查詢條件
避免拼接 SQL,使用參數(shù)化:
def find_by_metadata(conn, **kwargs):
# 構建嵌套 dict
condition = {"metadata": kwargs}
cur = conn.cursor()
cur.execute(
"SELECT * FROM events WHERE event_data @> %s",
(Json(condition),)
)
return cur.fetchall()
# 調用
results = find_by_metadata(conn, device="mobile", os="iOS")
6.2 更新 JSON 字段
# 使用 jsonb_set 更新嵌套字段
cur.execute("""
UPDATE users
SET profile = jsonb_set(profile, %s, %s, true)
WHERE id = %s
""", (
['settings', 'notifications'], # 路徑(數(shù)組)
Json({"email": True, "push": False}), # 新值
user_id
))
第四個參數(shù) true 表示:若路徑不存在則創(chuàng)建。
6.3 索引優(yōu)化
對高頻查詢字段建立 GIN 索引:
-- 全文索引(適用于任意鍵查詢) CREATE INDEX idx_event_data ON events USING GIN (event_data); -- 特定路徑索引(更高效) CREATE INDEX idx_event_action ON events ((event_data->>'action'));
在 Python 中可通過 Alembic 或原生 SQL 創(chuàng)建。
七、性能考量
7.1 存儲效率
JSONB比JSON節(jié)省 10%~30% 空間- 避免在 JSON 中存儲大文本(如 base64 圖片),應存 URL
7.2 查詢性能
- 避免在
WHERE中對 JSON 字段使用函數(shù)(如length(data->>'name')),會導致索引失效 - 優(yōu)先使用
@>,?,->>等支持索引的操作符
7.3 批量操作
- 使用
execute_values(psycopg2)或copy_records_to_table(asyncpg)提升批量插入性能 - 示例(psycopg2):
from psycopg2.extras import execute_values
data_list = [{"id": i, "tags": ["x"]} for i in range(1000)]
execute_values(
cur,
"INSERT INTO items (payload) VALUES %s",
[(Json(d),) for d in data_list]
)
八、典型應用場景
8.1 用戶配置存儲
CREATE TABLE user_settings (
user_id INT PRIMARY KEY,
preferences JSONB NOT NULL DEFAULT '{}'
);
- 優(yōu)勢:無需 ALTER TABLE 即可新增配置項
- 查詢:
SELECT preferences->'theme' FROM user_settings
8.2 日志與事件追蹤
- 存儲非結構化日志,支持按任意字段過濾
- 結合 BRIN 索引按時間分區(qū),GIN 索引按內容查詢
8.3 動態(tài)表單/問卷
- 表單結構存為 JSON,回答存為另一 JSON
- 避免 EAV(Entity-Attribute-Value)反模式
九、常見陷阱與解決方案
9.1 時區(qū)與日期處理
JSON 不支持日期類型,通常存為 ISO 字符串:
data = {"created_at": datetime.utcnow().isoformat()}
查詢時用 to_timestamp() 轉換:
SELECT to_timestamp(data->>'created_at', 'YYYY-MM-DD"T"HH24:MI:SS.US') FROM logs;
9.2 精度丟失(浮點數(shù))
PostgreSQL 的 JSONB 使用 IEEE 754 雙精度,與 Python 一致,一般無問題。
但若需高精度(如金融),應存為字符串或使用 NUMERIC 字段。
9.3 鍵名大小寫敏感
JSON 對象鍵區(qū)分大小寫:
-- 以下不等價 data->'UserId' vs data->'userid'
建議統(tǒng)一使用小寫命名。
以上就是使用Python與PostgreSQL的JSON數(shù)據(jù)進行交互的詳細內容,更多關于Python與PostgreSQL JSON數(shù)據(jù)交互的資料請關注腳本之家其它相關文章!
相關文章
使用Python的urllib2模塊處理url和圖片的技巧兩則
這篇文章主要介紹了使用Python的urllib2模塊處理url和圖片的兩個小技巧,分別是獲取帶有中文參數(shù)的url內容和獲取遠程圖片的大小和尺寸,需要的朋友可以參考下2016-02-02
python爬取分析超級大樂透歷史開獎數(shù)據(jù)
這篇文章主要介紹了python爬取分析超級大樂透歷史開獎數(shù)據(jù),本次使用了requests和beautifulsoup庫進行數(shù)據(jù)的爬取,通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-02-02

