Python Pandas面试题及答案 - [ 大数据和云计算 ]

Pandas是一个开源库,可在Python中提供高性能的数据处理。 Pandas这个名称源自“面板数据”一词,这表示来自多维数据的计量经济学。 它可用于Python中的数据分析,并由Wes McKinney在2008年开发。

1. Pandas/PythonPandas是什么?

Pandas是Python一个开源库,可在Python中提供高性能的数据处理。 Pandas这个名称源自“面板数据”一词,这表示来自多维数据的计量经济学。 它可用于Python中的数据分析,并由Wes McKinney在2008年开发。 无论数据的来源如何,它都可以执行处理和分析数据所需的五个重要步骤,即加载,操作,准备,建模和分析。详细答案>>

2. Pandas中有哪些不同类型的数据结构?

Pandas提供了两种数据结构,而Pandas库均支持这两种数据结构:Series和DataFrames。 这两个数据结构都建立在NumPy之上。
Series是Pandas中的一维数据结构,而DataFrames是Pandas中的二维数据结构。

详细答案>>

3. Pandas Series是什么?

Series被定义为能够存储各种数据类型的一维数组。 Series的行标签称为索引。 通过使用“Series”方法,我们可以轻松地将列表,元组和字典转换为Series。Series不能包含多个列。

详细答案>>

4. 如何计算Series的标准偏差?

Pandas std()定义为用于计算给定数字集,DataFrame,列和行的标准偏差的函数。

Series.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
详细答案>>

5. 在Pandas中的DataFrame是什么?

DataFrame是广泛使用的Pandas数据结构,可与带有标记轴(行和列)的二维数组一起使用。DataFrame被定义为存储数据的标准方式,并具有两个不同的索引,即行索引和列索引。 它包含以下属性: 这些列可以是异构类型,例如int和bool。它可以看作是Series结构的字典,其中行和列都被索引了。对于列,它表示为“列”,对于行,则表示为“索引”。详细答案>>

6. pandas库的重要特征是什么?

pandas库的主要功能如下:

  • 高效内存
  • 数据对齐
  • 重塑
  • 合并并加入
  • 时间序列
详细答案>>

7. 请解释说明在pandas中重新编制索引是什么?

重新索引用于通过可选的填充逻辑使DataFrame符合新索引。 它将NA/NaN放置在先前索引中不存在值的位置。 除非产生与当前索引相等的新索引,否则它将返回一个新对象,并且copy的值变为False。 它用于更改DataFrame的行和列的索引。详细答案>>

8. 用于创建散点图矩阵的Pandas库工具的名称是什么?

用于创建散点图矩阵的Pandas库工具的名称是:Scatter_matrix

详细答案>>

9. 在pandas中创建DataFrame有哪些不同方式?

可以使用以下方式创建一个DataFrame: 列表ndarrays的字典 示例1:使用列表创建一个DataFrame: import pandas as pd # a list of strings a = ['Python', 'Pandas'] # Calling DataFrame constructor on list info = pd.DataFrame(a) print(info) 执行结果如下: 0 0 ...详细答案>>

10. Pandas中的分类数据吗?

分类数据被定义为与统计中的分类变量相对应的Pandas数据类型。类别变量通常用于获取有限且通常为固定数量的可能值。例如:性别,国家所属,血型,社会阶层,观察时间或通过Likert量表进行的评分。分类数据的所有值都在类别或np.nan中。 在以下情况下,此数据类型很有用: 对于仅包含几个不同值的字符串变量很有用。如果要节省一些内存,可以将字符串变量转换为分类变量。对于与逻辑顺序不同的变量的词法顺序(“一个”,“两个”,“三个”)很有用,方法是转换为分类并指定类别的顺序,排序和最小/最大负责使用逻辑顺序而...详细答案>>

11. 如何根据Pandas中的字典创建系列?

系列被定义为能够存储各种数据类型的一维数组。 可以从Dictionary创建一个Pandas系列: 根据字典创建系列:也可以根据字典创建系列。 如果将字典对象作为输入传递而未指定索引,则按排序顺序获取字典键以构造索引。如果传递了索引,则将从字典中提取与索引中特定标签相对应的值。 import pandas as pd import numpy as np info = {'x' : 0., 'y' : 1., 'z' : 2.} a...详细答案>>

12. 如何在Pandas中创建series的副本?

可以使用以下语法创建系列的副本: pandas.Series.copy Series.copy(deep=True) 上面的语句构成了一个深层副本,其中包含数据和索引的副本。 如果将deep的值设置为False,它将既不会复制索引也不会复制数据。 注意:如果设置deep = True,将复制数据,并且不会递归复制实际的python对象,仅复制对该对象的引用。 详细答案>>

13. 如何在Pandas中创建一个空的DataFrame?

DataFrame是广泛使用的熊猫数据结构,可与带有标记轴(行和列)的二维数组一起使用.DataFrame被定义为存储数据的标准方式,并具有两个不同的索引,即行索引和列索引。 创建一个空的DataFrame: 下面的代码显示了如何在Pandas中创建一个空的DataFrame: # importing the pandas library import pandas as pd info = pd.DataFrame() print (info) 执行上面示例代码,得到以下结果...详细答案>>

14. 如何将列添加到pandas DataFrame?

我们可以将任何新列添加到现有DataFrame中。 以下代码演示了如何将任何新列添加到现有DataFrame中: # importing the pandas library import pandas as pd info = {'one' : pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']), ...详细答案>>

15. 如何将索引,行或列添加到Pandas DataFrame?

向数据框添加索引 如果您创建DataFrame,则熊猫可以将输入添加到index参数。 它将确保您具有所需的索引。 如果未指定输入,则默认情况下,DataFrame包含一个数值索引,该索引从0开始并在DataFrame的最后一行结束。 向数据框添加行 我们可以使用.loc,iloc和ix在DataFrame中插入行。 loc基本上适用于索引的标签。 可以理解为好像插入loc [4]一样,这意味着我们正在寻找索引为4的DataFrame值。iloc基本上适用于索引中的位置。 可以理解为好像我们插入了il...详细答案>>

16. 如何从熊猫数据框中删除索引,行或列?

从DataFrame中删除索引 如果要从DataFrame中删除索引,则必须执行以下操作: 重置DataFrame的索引。 执行del df.index.name删除索引名称。 通过重置索引来删除重复的索引值,然后从索引列中删除重复的值。 删除一行索引。 从DataFrame中删除列 可以使用drop()方法从DataFrame中删除列。 传递给drop()方法的axis参数如果表示行则为0,如果删除列则为1。 可以就地传递参数并将其设置为True,以在不重新分配DataFrame的情况下删除列。还可以...详细答案>>

17. 如何重命名Pandas DataFrame的索引或列?

可以使用.rename方法为DataFrame的列或索引值赋予不同的值。

详细答案>>

18. 如何遍历Pandas DataFrame?

可以通过将for循环与DataFrame上的iterrows()调用结合使用来遍历DataFrame的行。

详细答案>>

19. 如何获得系列B中不存在的系列A的项?

可以使用isin()方法从p1中删除p2中存在的项目。 import pandas as pd p1 = pd.Series([2, 4, 6, 8, 10]) p2 = pd.Series([8, 10, 12, 14, 16]) p1[~p1.isin(p2)] 执行上面示例代码,得到以下结果: 0 2 1 4 2 6 dtype: int64 详细答案>>

20. 如何获得A系列和B系列都不相同的项目?

通过下面的示例,我们得到p1和p2都不相同的所有项目: import pandas as pd import numpy as np p1 = pd.Series([2, 4, 6, 8, 10]) p2 = pd.Series([8, 10, 12, 14, 16]) p1[~p1.isin(p2)] p_u = pd.Series(np.union1d(p1, p2)) # union p_i = pd.Series(np.intersect1d(p1, p2)) # i...详细答案>>

21. 如何获得数字序列的最小值,第25,中位数,第75和最大值?

我们可以计算p的最小值,第25,中位数,第75个和最大值,如下例所示: import pandas as pd import numpy as np p = pd.Series(np.random.normal(14, 6, 22)) state = np.random.RandomState(120) p = pd.Series(state.normal(14, 6, 22)) np.percentile(p, q=[0, 25, 50, 75, 100]) 执行上面示例代码,得...详细答案>>

22. 如何获得一个系列唯一项目的频率计数?

我们可以计算每个唯一值p的频率计数,如下例所示: import pandas as pd import numpy as np p= pd.Series(np.take(list('pqrstu'), np.random.randint(6, size=17))) p = pd.Series(np.take(list('pqrstu'), np.random.randint(6, size=17))) p.value_counts() 执行上面示例代码,...详细答案>>

23. 如何将numpy数组转换为给定形状的dataframe ?

我们可以将序列p整形为具有6行2列的数据帧,如下例所示: import pandas as pd import numpy as np p = pd.Series(np.random.randint(1, 7, 35)) # Input p = pd.Series(np.random.randint(1, 7, 35)) info = pd.DataFrame(p.values.reshape(7,5)) print(info) 执行上面示例代码,得到以下结果: 0 1 2...详细答案>>

24. 如何将Series转换为DataFrame?

Pandas Series.to_frame()函数用于将系列对象转换为DataFrame。 Series.to_frame(name=None) name:指对象。 其默认值为None。 如果有一个值,则将使用传递的名称代替系列名称。 s = pd.Series(["a", "b", "c"], name="vals") s.to_frame() 执行结果如下所示: vals 0 ...详细答案>>

25. 什么是Pandas NumPy数组?

Numerical Python(Numpy)被定义为Python软件包,用于执行多维和一维数组元素的各种数值计算和处理。 使用Numpy数组的计算比普通的Python数组快。

详细答案>>

26. 如何将DataFrame转换为NumPy数组?

为了执行一些高级数学函数,我们可以将Pandas DataFrame转换为numpy数组。 它使用DataFrame.to_numpy()函数。DataFrame.to_numpy()函数应用于返回numpy ndarray的DataFrame。 DataFrame.to_numpy(dtype=None, copy=False) 详细答案>>

27. 如何将DataFrame转换为Excel文件?

可以使用to_excel()函数将DataFrame导出到excel文件。 要将单个对象写入excel文件,我们必须指定目标文件名。 如果要写入多个工作表,则需要使用目标文件名创建一个ExcelWriter对象,并且还需要在必须写入的文件中指定工作表。详细答案>>

28. 如何对DataFrame进行排序?

我们可以通过以下几种有效地在DataFrame中执行排序: 按标签按实际值 按标签 可以使用sort_index()方法对DataFrame进行排序。 可以通过传递轴参数和排序顺序来完成。 默认情况下,按升序对行标签进行排序。 按实际值 这是另一种可以在DataFrame中执行排序的方法。 与索引排序类似,sort_values()是一种用于对值进行排序的方法。它还提供了一项功能,我们可以在其中指定要对值进行排序的DataFrame的列名。 通过传递“ by”参数来完成。详细答案>>

29. 什么是Pandas时间序列?

时间序列数据被定义为信息的重要来源,该信息提供了可用于各种业务的策略。 从传统的金融行业到教育行业,它包含许多有关时间的细节。时间序列预测是一种处理时间序列数据的机器学习模型,用于通过时间序列建模预测未来值。详细答案>>

30. 什么是时间偏移?

偏移量指定一组符合DateOffset的日期。 我们可以创建DateOffsets将日期向前移动到有效日期。

详细答案>>

31. 时间段是什么?

时间段表示时间跨度,例如,天,年,季度或月等。它被定义为允许我们将频率转换为时间段的类。

详细答案>>

32. 如何将字符串转换为日期?

以下代码演示了如何将字符串转换为日期: fromdatetime import datetime # Define dates as the strings dmy_str1 = 'Wednesday, July 14, 2018' dmy_str2 = '14/7/17' dmy_str3 = '14-07-2017' # Define dates as the datetime objects ...详细答案>>

33. 什么是数据聚合?

数据聚合的主要任务是将某种聚合应用于一个或多个列。 它使用以下内容: sum:用于返回所请求轴的值之和。min:用于返回所请求轴的最小值。max:用于返回所请求轴的最大值。详细答案>>

34. 多索引是什么?

多重索引被定义为必不可少的索引,因为它处理数据分析和操作,尤其是处理高维数据时。 它还使我们能够在Series和DataFrame等较低维度的数据结构中存储和处理任意数量的维度的数据。

详细答案>>

35. 重建索引是什么?

重建索引引用于更改DataFrame的行和列的索引。 我们可以使用reindex()方法为单行或多行重建索引。 如果DataFrame中不存在默认索引,则为新索引中的默认值分配NaN。 DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None) 详细答案>>

36. 如何设置索引?

可以在制作数据框时设置索引列。 但是有时,一个数据帧是由两个或多个数据帧组成的,然后可以使用此方法更改索引。

详细答案>>

37. 如何重置索引?

DataFrame的Reset index用于通过使用’reset_index’命令来重置索引。 如果DataFrame具有MultiIndex,则此方法可以删除一个或多个级别。

详细答案>>

38. 请描述说明Pandas中的数据操作?

在Pandas中,DataFrame有不同的有用数据操作,如下所示: 行和列选择我们可以通过传递行和列的名称来选择DataFrame的任何行和列。 当您从DataFrame中选择它时,它将变为一维并被视为Series。 过滤数据我们可以通过在DataFrame中提供一些布尔表达式来过滤数据。 空值当没有数据提供给项目时,将出现Null值。 各个列可能不包含任何值,通常表示为NaN。详细答案>>

39. 在Pandas中如何定义GroupBy?

在Pandas中,groupby()函数允许我们通过在实际数据集上利用它们来重新排列数据。 它的主要任务是将数据分成不同的组。 这些组基于一些标准进行分类。 可以从任何轴划分对象。 DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs) 详细答案>>
注: 此试题仅作为相关知识水平测试,不能作为权威试题和答案。非商业转载注明原文链接即可;商业转载需本站授权同意。

相关面试题

Python Pandas面试题及答案   39
layui

微信扫码关注 考评师 公众号