Pyspark的DataFrame与Pandas的DataFrame之间如何实现高效转换？转换技巧与注意事项详解！

2025年12月21日 23:04 • 云服务器 • 阅读 77

Pyspark.sql.DataFrame与Pandas.DataFrame之间的相互转换

简介

Pyspark.sql.DataFrame和Pandas.DataFrame是两个非常流行的数据处理工具，分别应用于Apache Spark和Python数据分析和处理，DataFrame作为两种工具的核心数据结构，提供了强大的数据处理能力，在实际应用中，我们可能需要将Pyspark.sql.DataFrame和Pandas.DataFrame之间进行转换，以便在不同的数据处理场景中使用,本文将详细介绍这两种DataFrame之间的相互转换方法。

Pyspark.sql.DataFrame与Pandas.DataFrame之间的转换

Pyspark.sql.DataFrame转换为Pandas.DataFrame

将Pyspark.sql.DataFrame转换为Pandas.DataFrame可以通过以下步骤实现：

（1）将Pyspark.sql.DataFrame转换为Pandas.DataFrame对象。

from pyspark.sql import SparkSession
import pandas as pd
# 创建SparkSession
spark = SparkSession.builder.appName("DataFrameConversion").getOrCreate()
# 创建Pyspark.sql.DataFrame
data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]
columns = ["Name", "Age"]
df_spark = spark.createDataFrame(data, columns)
# 将Pyspark.sql.DataFrame转换为Pandas.DataFrame
df_pandas = df_spark.toPandas()

（2）打印转换后的Pandas.DataFrame。

print(df_pandas)

Pandas.DataFrame转换为Pyspark.sql.DataFrame

将Pandas.DataFrame转换为Pyspark.sql.DataFrame可以通过以下步骤实现：

（1）将Pandas.DataFrame转换为Pyspark.sql.DataFrame对象。

# 创建Pandas.DataFrame
data = {"Name": ["Alice", "Bob", "Charlie"], "Age": [1, 2, 3]}
df_pandas = pd.DataFrame(data)
# 将Pandas.DataFrame转换为Pyspark.sql.DataFrame
df_spark = spark.createDataFrame(df_pandas)

（2）打印转换后的Pyspark.sql.DataFrame。