淺談DataFrame和SparkSql取值誤區(qū)

更新時間：2018年06月09日 08:57:14 作者：silentwolfyh

今天小編就為大家分享一篇淺談DataFrame和SparkSql取值誤區(qū)，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

1、DataFrame返回的不是對象。

2、DataFrame查出來的數(shù)據(jù)返回的是一個dataframe數(shù)據(jù)集。

3、DataFrame只有遇見Action的算子才能執(zhí)行

4、SparkSql查出來的數(shù)據(jù)返回的是一個dataframe數(shù)據(jù)集。

原始數(shù)據(jù)

scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")
df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string]

代碼

package DataFrame
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
 * Created by yuhui on 2016/6/14.
 */
object DataFrameTest {
 def main(args: Array[String]) {
 DataFrameInto()
 }
 def DataFrameInto() {
 val conf = new SparkConf()
 val sc = new SparkContext(conf)
 val sqlContext = new SQLContext(sc)
 val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet")
 //df.map(line => printinfo(line.getString(0)))
 //df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
 //df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
 df.registerTempTable("infotable")
 sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
 }
 def printinfo(msg: String) {println("printinfo函數(shù)-->" + msg) }
}

代碼解析

1、df.map(line => printinfo(line.getString(0)))

這段代碼不行執(zhí)行printinfo()函數(shù)，因為只有map算子，沒有Action算子。

2、df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))

通過Spark的Action算子接收數(shù)據(jù)進行操作，執(zhí)行結(jié)果如下：