Spark SQL的自定義函數(shù)UDF使用

更新時(shí)間：2023年02月01日 14:36:59 作者：CarveStone

Spark Sql可以通過UDF來對(duì)DataFrame的Column進(jìn)行自定義操作。在特定場景下定義UDF可能需要用到Spark Context以外的資源或數(shù)據(jù)。比如從List或Map中取值，或是通過連接池從外部的數(shù)據(jù)源中讀取數(shù)據(jù)，然后再參與Column的運(yùn)算

Spark_SQL的UDF使用

用戶自定義函數(shù)，也叫UDF，可以讓我們使用Python/Java/Scala注冊自定義函數(shù)，并在SQL中調(diào)用。這種方法很常用，通常用來給機(jī)構(gòu)內(nèi)的SQL用戶們提供高級(jí)功能支持，這樣這些用戶就可以直接調(diào)用注冊的函數(shù)而無需自己去通過編程來實(shí)現(xiàn)了。

在Spark SQL中，編寫UDF 尤為簡單。Spark SQL不僅有自己的UDF接口，也支持已有的Apache Hive UDF。我們可以使用Spark支持的編程語言編寫好函數(shù)，然后通過Spark SQL內(nèi)建的方法傳遞進(jìn)來，非常便捷地注冊我們自己的UDF。
在Scala和Python中，可以利用語言原生的函數(shù)和lambda語法的支持，而在Java中，則需要擴(kuò)展對(duì)應(yīng)的UDF類。UDF能夠支持各種數(shù)據(jù)類型，返回類型也可以與調(diào)用時(shí)的參數(shù)類型完全不一樣。

UDF簡單使用

首先通過代碼建立一個(gè)測試的DataFrame數(shù)據(jù)，通過RDD產(chǎn)生，再轉(zhuǎn)換成DataFrame格式，通過寫簡單的UDF函數(shù)，對(duì)數(shù)據(jù)進(jìn)行操作并輸出，例如：

import org.apache.spark.sql.Row
import org.apache.spark.rdd._
import scala.collection.mutable.ArrayBuffer
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}
// 通過RDD創(chuàng)建測試數(shù)據(jù)
val rdd: RDD[Row] = sc.parallelize(List("Michael,male, 29",            
"Andy,female, 30",
"Justin,male, 19",
"Dela,female, 25",
"Magi,male, 20",
"Pule,male,21"))
.map(_.split(",")).map(p => Row(p(0),p(1),p(2).trim.toInt))
// 創(chuàng)建Schema
val schema = StructType( Array( StructField("name",StringType, true),StructField("sex",StringType, true),StructField("age",IntegerType,true)))
// 轉(zhuǎn)換DataFrame  
val peopleDF = spark.sqlContext.createDataFrame(rdd,schema) 
// 注冊UDF函數(shù)    
spark.udf.register("strlen",(x:String)=>x.length)
// 創(chuàng)建臨時(shí)表       
peopleDF.registerTempTable("people")                  
// 選擇輸出語句，（選擇輸出列：名字，名字長度，性別從表people中）
spark.sql("select name, strlen(name) as strlen,sex from people").show()

創(chuàng)建 DataFrame

scala> val df = spark.read.json("data/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint， username: string]

注冊 UDF

scala> spark.udf.register("addName",(x:String)=> "Name:"+x)
res9: org.apache.spark.sql.expressions.UserDefinedFunction = 
UserDefinedFunction(<function1>,StringType,Some(List(StringType)))

創(chuàng)建臨時(shí)表

scala> df.createOrReplaceTempView("people")

應(yīng)用 UDF

scala> spark.sql("Select addName(name),age from people").show()

到此這篇關(guān)于Spark SQL的自定義函數(shù)UDF使用的文章就介紹到這了,更多相關(guān)Spark SQL UDF內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Spark SQL的自定義函數(shù)UDF使用

目錄

Spark_SQL的UDF使用

UDF簡單使用

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Spark SQL的自定義函數(shù)UDF使用

目錄

Spark_SQL的UDF使用

UDF簡單使用

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕