dict_file = '2015_2017_FemPregSetup.dct'
data_file = '2015_2017_FemPregData.dat'


from os.path import basename, exists

def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve
        local, _ = urlretrieve(url, filename)
        print('Downloaded ' + local)


download('https://ftp.cdc.gov/pub/health_statistics/nchs/' +
         'datasets/NSFG/stata/' + dict_file)


download('https://ftp.cdc.gov/pub/health_statistics/nchs/' +
         'datasets/NSFG/' + data_file)


try:
    from statadict import parse_stata_dict
except ImportError:
    !pip install statadict


from statadict import parse_stata_dict

stata_dict = parse_stata_dict(dict_file)
stata_dict

<statadict.base.StataDict at 0x7fede2455c70>


import pandas as pd

nsfg = pd.read_fwf(data_file,
                   names=stata_dict.names,
                   colspecs=stata_dict.colspecs)
type(nsfg)

pandas.core.frame.DataFrame


nsfg.head()


nsfg.shape

(9553, 248)


nsfg.columns

Index(['CASEID', 'PREGORDR', 'HOWPREG_N', 'HOWPREG_P', 'MOSCURRP', 'NOWPRGDK',
       'PREGEND1', 'PREGEND2', 'HOWENDDK', 'NBRNALIV',
       ...
       'SECU', 'SEST', 'CMINTVW', 'CMLSTYR', 'CMJAN3YR', 'CMJAN4YR',
       'CMJAN5YR', 'QUARTER', 'PHASE', 'INTVWYEAR'],
      dtype='object', length=248)


type(nsfg.columns)

pandas.core.indexes.base.Index


pounds = nsfg['BIRTHWGT_LB1']
type(pounds)

pandas.core.series.Series


pounds.head()

0    7.0
1    NaN
2    9.0
3    6.0
4    7.0
Name: BIRTHWGT_LB1, dtype: float64


# Решение идет здесь


pounds = nsfg['BIRTHWGT_LB1']
ounces = nsfg['BIRTHWGT_OZ1']


pounds.value_counts()

7.0     2268
6.0     1644
8.0     1287
5.0      570
9.0      396
4.0      179
99.0      89
10.0      82
3.0       76
2.0       46
1.0       28
11.0      17
98.0       2
12.0       2
0.0        2
14.0       1
13.0       1
Name: BIRTHWGT_LB1, dtype: int64


pounds.value_counts().sort_index()

0.0        2
1.0       28
2.0       46
3.0       76
4.0      179
5.0      570
6.0     1644
7.0     2268
8.0     1287
9.0      396
10.0      82
11.0      17
12.0       2
13.0       1
14.0       1
98.0       2
99.0      89
Name: BIRTHWGT_LB1, dtype: int64


# Решение идет здесь


pounds.describe()

count    6690.000000
mean        8.008819
std        10.771360
min         0.000000
25%         6.000000
50%         7.000000
75%         8.000000
max        99.000000
Name: BIRTHWGT_LB1, dtype: float64


import numpy as np

pounds_clean = pounds.replace([98, 99], np.nan)


pounds_clean.describe()

count    6599.000000
mean        6.754357
std         1.383268
min         0.000000
25%         6.000000
50%         7.000000
75%         8.000000
max        14.000000
Name: BIRTHWGT_LB1, dtype: float64


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


pounds_clean = pounds.replace([98, 99], np.nan)
ounces_clean = ounces.replace([98, 99], np.nan)

birth_weight = pounds_clean + ounces_clean / 16
birth_weight.mean()

7.180217889908257


import matplotlib.pyplot as plt

birth_weight.hist(bins=30)
plt.xlabel('Вес при рождении в фунтах')
plt.ylabel('Количество рожденных')
plt.title('Распределение веса при рождении в США');


# Решение идет здесь


# Решение идет здесь


preterm = (nsfg['PRGLNGTH'] < 37)
preterm.dtype

dtype('bool')


preterm.head()

0    False
1     True
2    False
3    False
4    False
Name: PRGLNGTH, dtype: bool


preterm.sum()

3675


preterm.mean()

0.38469590704490736


live = (nsfg['OUTCOME'] == 1)
live.mean()

0.7006176070344394


live_preterm = (live & preterm)
live_preterm.mean()

0.08929132209777034


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


preterm_weight = birth_weight[preterm]
preterm_weight.mean()

5.480958781362007


fullterm = (nsfg['PRGLNGTH'] >= 37)


full_term_weight = birth_weight[fullterm]
full_term_weight.mean()

7.429609416096791


full_term_weight = birth_weight[live & fullterm]
full_term_weight.mean()

7.429609416096791


nbrnaliv = nsfg['NBRNALIV']
nbrnaliv.value_counts()

1.0    6573
2.0     111
3.0       6
Name: NBRNALIV, dtype: int64


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


# Решение идет здесь


sampling_weight = nsfg['WGT2015_2017']
sampling_weight.describe()

count      9553.000000
mean      13337.425944
std       16138.878271
min        1924.916000
25%        4575.221221
50%        7292.490835
75%       15724.902673
max      106774.400000
Name: WGT2015_2017, dtype: float64


missing = birth_weight.isna()
missing.sum()

3013


valid = birth_weight.notna()
valid.sum()

6540


single = (nbrnaliv == 1)
selected = valid & live & single & fullterm
selected.sum()

5648


# Решение идет здесь


# Решение идет здесь

Значение	Метка	Итого
.	НЕПРИМЕНИМО (INAPPLICABLE)	2863
0-5	ДО 6 ФУНТОВ	901
6	6 ФУНТОВ	1644
7	7 ФУНТОВ	2268
8	8 ФУНТОВ	1287
9-95	9 ФУНТОВ ИЛИ БОЛЬШЕ	499
98	Отказано (Refused)	2
99	Не знаю	89
	Итого	9553

Значение	Смысл
1	Рождение (Live birth)
2	Искусственный аборт (Induced abortion)
3	Мертворождение (Stillbirth)
4	Выкидыш (Miscarriage)
5	Внематочная беременность (Ectopic pregnancy)
6	Текущая беременность (Current pregnancy)

Разбираем проект по анализу данных: исследуем средний вес новорожденных¶

Чтение данных¶

Series¶

Проверка¶

Сводные статистические данные¶

Арифметика с сериями¶

Гистограммы¶

Логическая серия (boolean series)¶

Фильтрация¶

Средневзвешенное значение¶

Резюме¶

	CASEID	PREGORDR	HOWPREG_N	HOWPREG_P	MOSCURRP	NOWPRGDK	PREGEND1	PREGEND2	HOWENDDK	NBRNALIV	...	SECU	SEST	CMINTVW	CMLSTYR	CMJAN3YR	CMJAN4YR	CMJAN5YR	QUARTER	PHASE	INTVWYEAR
0	70627	1	NaN	NaN	NaN	NaN	6.0	NaN	NaN	1.0	...	3	322	1394	1382	1357	1345	1333	18	1	2016
1	70627	2	NaN	NaN	NaN	NaN	1.0	NaN	NaN	NaN	...	3	322	1394	1382	1357	1345	1333	18	1	2016
2	70627	3	NaN	NaN	NaN	NaN	6.0	NaN	NaN	1.0	...	3	322	1394	1382	1357	1345	1333	18	1	2016
3	70628	1	NaN	NaN	NaN	NaN	6.0	NaN	NaN	1.0	...	2	366	1409	1397	1369	1357	1345	23	1	2017
4	70628	2	NaN	NaN	NaN	NaN	6.0	NaN	NaN	1.0	...	2	366	1409	1397	1369	1357	1345	23	1	2017