必会的 20 个 Python 代码片段
小寒
Python 因其多功能性和丰富的生态系统而成为数据科学家的首选语言。
今天我们将一起探讨一下每个数据科学家都应知道的 20 个重要的 Python 代码片段。
这些片段涵盖了广泛的数据操作和分析任务。
1、导入库
始终从导入项目所需的库开始。
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns
2、读取数据
从各种来源加载数据,例如 CSV、Excel 或 SQL 数据库。
# From CSV data = pd.read_csv('data.csv') # From Excel data = pd.read_excel('data.xlsx') # From SQL import sqlite3 conn = sqlite3.connect('database.db') data = pd.read_sql_query('SELECT * FROM table_name', conn)
3、数据检查
快速检查数据的前几行和基本统计信息。
data.head() data.describe()
4、处理缺失值
使用 pandas 处理缺失数据。
data.dropna() # 删除有缺失值的行 data.fillna(value) # 用特定值填充缺失值
5、数据选择
从 DataFrame 中选择特定的列或行。
data['column_name'] data.loc[data['condition']]
6、数据过滤
根据条件过滤数据。
data[data['column'] > 50] data[(data['column1'] > 30) & (data['column2'] < 10)]
7、分组和聚合
使用分组操作聚合数据。
data.groupby('category')['value'].mean()
8、数据可视化
创建用于数据探索的绘图和图表。
plt.hist(data['column'], bins=20) sns.scatterplot(x='x', y='y', data=data)
9、数据采样
从数据集中随机抽取样本。
sample = data.sample(n=100)
10、 数据透视表
创建数据透视表来汇总数据。
pd.pivot_table(data, values='value', index='category', columns='date', aggfunc=np.sum)
11、合并数据
合并来自多个来源的数据。
merged_data = pd.concat([data1, data2], axis=0)
12、数据转换
将函数应用于数据列。
data['new_column'] = data['old_column'].apply(lambda x: x * 2)
13、日期和时间操作
操作日期和时间数据。
data['date_column'] = pd.to_datetime(data['date_column']) data['month'] = data['date_column'].dt.month
14、使用 Scikit-Learn 进行机器学习
训练和评估机器学习模型。
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train)
15、保存数据
将处理后的数据保存到文件中。
data.to_csv('processed_data.csv',index=False)
16、处理异常值
检测并处理数据中的异常值。
Q1 = data['column'].quantile(0.25) Q3 = data['column'].quantile(0.75) IQR = Q3 - Q1 data = data[(data['column'] >= Q1 - 1.5 * IQR) & (data['column'] <= Q3 + 1.5 * IQR)]
17、文本处理
执行文本处理任务。
text = "This is a sample text." words = text.split()
18、统计检验
进行假设检验的统计检验。
from scipy.stats import ttest_ind result = ttest_ind(data['group1'], data['group2'])
19、正则表达式
使用正则表达式进行高级文本模式匹配。
import re matches = re.findall(r'\b\d+\b', text)
20、处理异常以确保代码顺利执行
try: # Code that may raise an exception except Exception as e: print(f"An error occurred: {e}")
这 20 个基本的 Python 代码片段将在你处理各种数据科学任务时节省你的时间和精力。