淺談DataFrame和SparkSql取值誤區(qū)
1、DataFrame返回的不是對象。
2、DataFrame查出來的數(shù)據(jù)返回的是一個dataframe數(shù)據(jù)集。
3、DataFrame只有遇見Action的算子才能執(zhí)行
4、SparkSql查出來的數(shù)據(jù)返回的是一個dataframe數(shù)據(jù)集。
原始數(shù)據(jù)
scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")
df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string]

代碼
package DataFrame
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by yuhui on 2016/6/14.
*/
object DataFrameTest {
def main(args: Array[String]) {
DataFrameInto()
}
def DataFrameInto() {
val conf = new SparkConf()
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet")
//df.map(line => printinfo(line.getString(0)))
//df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
//df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
df.registerTempTable("infotable")
sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
}
def printinfo(msg: String) {println("printinfo函數(shù)-->" + msg) }
}
代碼解析
1、df.map(line => printinfo(line.getString(0)))
這段代碼不行執(zhí)行printinfo()函數(shù),因為只有map算子,沒有Action算子。
2、df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
通過Spark的Action算子接收數(shù)據(jù)進行操作,執(zhí)行結(jié)果如下:

3、df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
通過DataFrame的API進行操作,再通過Spark的Action算子打印出來,執(zhí)行結(jié)果如下:

4、sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
執(zhí)行結(jié)果如下:

以上這篇淺談DataFrame和SparkSql取值誤區(qū)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Django集成Celery實現(xiàn)高效的異步任務(wù)處理的全過程
Django?作為一個強大的?Python?Web?框架,可以通過集成?Celery?這一異步任務(wù)隊列來優(yōu)化這些任務(wù)的處理,本文將深入探討如何在?Django?項目中集成?Celery,包括?Celery?的基本配置、定義任務(wù)、以及監(jiān)控任務(wù)執(zhí)行,需要的朋友可以參考下2023-11-11
Python 時間操作例子和時間格式化參數(shù)小結(jié)
這篇文章主要介紹了Python 時間操作例子,例如取前幾天、后幾天、前一月、后一月等,需要的朋友可以參考下2014-04-04

