BlazingSQL 现在开源了,GPU 加速的 SQL 引擎!

🌌 365bet官方博客 ⏱️ 2025-07-28 14:31:14 👤 admin 👁️ 6253 ⭐ 242
BlazingSQL 现在开源了,GPU 加速的 SQL 引擎!

BlazingSQL 是 RAPIDS 生态系统的 GPU 加速 SQL 引擎,BlazingSQL 为各种 ETL 大数据集提供 SQL 接口,并且完全运行在 GPU 之上。其前身是 BlazingDB。现在在 Apache 2.0 许可下 100% 开源!

RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于Apache Arrow 柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据。

BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

主要特性:

查询外部存储数据 - 单行代码可以注册远程存储解决方案,例如Amazon S3。

简单的SQL - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。

互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

示例代码:

CVS 读取:

from blazingsql import BlazingContextbc = BlazingContext()# Create Table from CSVbc.create_table('taxi', '/blazingdb/data/taxi.csv', delimiter= ',', names = column_names)# Queryresult = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()result_gdf = result.columns#Print GDFprint(result_gdf)JSON 处理:

from blazingsql import BlazingContextimport cudfbc = BlazingContext()# Load JSON into GPU DataFrame (GDF)taxi_gdf = cudf.io.json.read_json('taxi.json')# Create Table from GDFbc.create_table('taxi', taxi_gdf)# Queryresult = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()result_gdf = result.columns#Print GDFprint(result_gdf)软件网址请点击“查看原文”

🛸 相关文章

胆大的生肖是什么(胆子很大的生肖)
365比分

胆大的生肖是什么(胆子很大的生肖)

📅 07-10 👁️ 4116
手机怎么查电费?教你用国家电网查!
365比分

手机怎么查电费?教你用国家电网查!

📅 07-03 👁️ 1456