pyspark中dataframe 转化问题(panda、list等)
背景
dataframe是pyspark中常见的数据类型,一般从load的sql中读取。有时候输入数据源并非sql,这时如何处理呢?
具体转化示例
list转化为dataframe
先将list转化为 dataframe
import pandas as pd
data_list = [['wer', 1], ['asd', 2]]
panda_df = pd.DataFrame(data_list, columns=['col_name1', 'col_name2'])
# 此处要注意panda和pandas是两个不同的包
# pandas中的dataframe和spark中的dataframe不一样
再将pandas中的dataframe转化成spark中的dataframe
from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark_df = spark.createDataFrame(panda_df)
其他
更多spark中dataframe 操作可参见 pyspark中where及=的使用