Pandas
Pandas | |
---|---|
Тып | бібліятэка Python[d] і праграма для лікавага аналізу[d] |
Аўтар | Уэс Мак-Кіні[d][1] |
Распрацоўшчык | Уэс Мак-Кіні[d], Брок Мендэль[d], Ёрыс Ван дэн Босшэ[d] і Джэф Рэбек[d][2] |
Напісана на | Python[4] |
Аперацыйная сістэма | кросплатформавае праграмнае забеспячэнне |
Першы выпуск | 11 студзеня 2008 |
Апошняя версія |
|
Ліцэнзія | ліцэнзія BSD[d] |
Сайт | pandas.pydata.org (англ.) |
Медыяфайлы на Вікісховішчы |
pandas — праграмная бібліятэка на мове Python для апрацоўкі і аналізу даных. Работа pandas з данымі будуецца па-над бібліятэкай NumPy , якая з’яўляецца інструментам ніжэйшага ўзроўню. Прадастаўляе спецыяльныя структуры даных і аперацыі для маніпулявання лічбавымі табліцамі і часавымі радамі . Назва бібліятэкі паходзіць ад эканаметрычнага тэрміна «панэльныя даныя», які выкарыстоўваецца для апісання шматмерных структураваных набораў інфармацыі. pandas распаўсюджваецца пад новай ліцэнзіяй BSD.
Вобласць выкарыстання
Асноўная вобласць выкарыстання — забеспячэнне працы ў рамках асяроддзя Python не толькі для збору і ачысткі даных, але для задач аналізу і мадэлявання даных без пераключэння на мовы, больш спецыфічныя для статыстычнай апрацоўкі (такія як R і Octave).
Таксама актыўна вядзецца праца па рэалізацыі «родных» катэгарыяльных тыпаў даных.
Пакет першым чынам прызначаны для ачысткі і першаснай ацэнкі даных па агульных паказчыках, напрыклад, сярэдняму значэнню, квантылям і гэтак далей. Статыстычным пакетам ён у поўным сэнсе не з’яўляецца, аднак наборы даных тыпаў DataFrame і Series ужываюцца ў якасці ўваходных у большасці модуляў аналізу даных і машыннага навучання (SciPy , Scikit-Learn і іншых).
Магчымасці
Асноўныя магчымасці бібліятэкі:
- Аб’ект DataFrame для маніпулявання індэксаванымі масівамі двухмерных даных[5].
- Інструменты для абмену данымі паміж структурамі ў памяці і файламі розных фарматаў.
- Убудаваныя сродкі сумяшчэння даных і спосабы апрацоўкі адсутнай інфармацыі.
- Перафарматаванне набораў даных, у тым ліку стварэнне зводных табліц.
- Зрэз даных па значэннях індэкса, пашыраныя магчымасці індэксавання, выбарка з вялікіх набораў даных.
- Устаўка і выдаленне слупкоў даных.
- Магчымасці групоўкі дазваляюць выконваць трохэтапныя аперацыі тыпу «падзел, змяненне, аб’яднанне» (англ.: split — apply — combine).
- Зліццё і аб’яднанне набораў даных.
- Іерархічнае індэксаванне дазваляе працаваць з данымі высокай памернасці ў структурах меншай памернасці.
- Праца з часавымі радамі: фармаванне часавых перыядаў, змена інтэрвалаў і гэтак далей.
Бібліятэка аптымізавана для высокай прадукцыйнасці, найбольш важныя часткі кода напісаны на Cython і Сі.
Гісторыя
Распрацоўка бібліятэкі была распачата ў 2008 годзе супрацоўнікам AQR Capital Management Вэсам Маккіні . Перад сыходам з AQR яму ўдалося пераканаць кіраўніцтва дазволіць апублікаваць зыходны код бібліятэкі пад свабоднай ліцэнзіяй.
Іншы работнік AQR — Чан Шэ — далучыўся да праекта ў 2012 годзе. Ён стаў другім галоўным распрацоўшчыкам бібліятэкі. Прыкладна ў той жа час бібліятэка набрала папулярнасць у асяроддзі Python-распрацоўшчыкаў, і да праекта далучылася мноства новых удзельнікаў.
Прыклады выкарыстання
Крывыя
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()
Дыяграма
df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()
Графік
df = pd.DataFrame(np.random.rand(7, 5), columns=list('ABCDE'))
df.plot.box()
plt.show()
Гістаграма
data = pd.Series(np.random.normal(size=100))
data.hist(grid=False)
plt.show()
Зноскі
- ↑ https://wesmckinney.com/pages/about.html Праверана 25 чэрвеня 2021.
- ↑ https://www.youtube.com/watch?v=7JHqxODJG9k
- ↑ Release 2.2.3 — 2024. Праверана 22 верасня 2024.
- ↑ The py-pandas Open Source Project on Open Hub: Languages Page — 2006. Праверана 14 ліпеня 2018.
- ↑ Pandas Reset Index (30 жніўня 2021). Архівавана з першакрыніцы 30 жніўня 2021. Праверана 30 жніўня 2021.