Nesne

2.2E: Çok Değişkenli Fonksiyonlar (Alıştırmalar)


13.1: Çok Değişkenli Fonksiyonlar

Aşağıdaki alıştırmalar için her bir işlevi belirtilen değerlerde değerlendirin.

1) ( W(x,y)=4x^2+y^2.) ( W(2,−1), W(−3,6)) bulun.

Cevap:
( W(2,−1) = 17,dörtlü W(−3,6) = 72)

2) ( W(x,y)=4x^2+y^2). ( W(2+h,3+h).) bulun

3) Dik dairesel silindirin hacmi iki değişkenli bir fonksiyonla hesaplanır, ( V(x,y)=πx^2y,) burada ( x) dik dairesel silindirin yarıçapıdır ve ( y) silindirin yüksekliğini temsil eder. ( V(2,5)) değerini değerlendirin ve bunun ne anlama geldiğini açıklayın.

Cevap:
( V(2,5) = 20π, ext{units}^3) Bu, yarıçap ( 2) ve yükseklik ( 5) olduğunda hacimdir.

4) Bir oksijen tankı, yüksekliği ( y) ve yarıçapı ( x) olan bir sağ silindirden ve silindirin üstüne ve altına monte edilmiş iki yarı küre yarıçapından ( x) yapılmıştır. Silindirin hacmini ( x) ve ( y) olmak üzere iki değişkenin bir fonksiyonu olarak ifade edin, ( V(10,2)) bulun ve bunun ne anlama geldiğini açıklayın.

5 - 10 arasındaki alıştırmalar için, verilen fonksiyonun tanım kümesini ve aralığını bulun. Etki alanını küme oluşturucu notasyonunda ve aralığı aralık notasyonunda belirtin.

5) ( V(x,y)=4x^2+y^2)

Cevap:
Etki Alanı: ({(x, y) | x in m I!R, y in m I!R}) Yani, (xy)-düzlemindeki tüm noktalar
Aralık: ( [0, infty) )

6) ( f(x,y)=sqrt{x^2+y^2−4})

Cevap:
Etki Alanı: ( {(x, y) | x^2+y^2 ge 4})
Aralık: ( [0, infty) )

7) ( f(x,y)=4ln(y^2−x))

Cevap:
Etki Alanı: ( {(x, y) | xAralık: ( (-infty, infty) )

8) ( g(x,y)=sqrt{16−4x^2−y^2})

Cevap:
Etki Alanı: ( {(x, y) | frac{x^2}{4} + frac{y^2}{16} le 1})
Aralık: ( [0, 4] )

9) ( z=arccos(y−x))

Cevap:
Etki Alanı: ( {(x, y) | x - 1 le y le x + 1}) Yani, (y = x -1) ve (y =) grafikleri arasındaki tüm noktalar x+1 ).
Aralık: ( [0, pi] )

10) ( f(x,y)=dfrac{y+2}{x^2})

Cevap:
Etki Alanı: ( {(x, y) | x eq 0 })
Aralık: ( (-infty, infty) )

Fonksiyonların aralığını bulun.

11) ( g(x,y)=sqrt{16−4x^2−y^2})

Cevap:
( {z|0≤z≤4})

12) ( V(x,y)=4x^2+y^2)

13) ( z=y^2−x^2)

Cevap:
( m I!R) kümesi

14 - 29 numaralı alıştırmalarda, verilen fonksiyonu görselleştirmek için gösterilen ( c) değerlerinde her bir fonksiyonun seviye eğrilerini bulun. 3'ten fazla (c) değerinin istendiği alıştırmalar için bir kontur grafiği çizin.

14) ( z(x,y)=y^2−x^2, quad c=1)

15) ( z(x,y)=y^2−x^2,quad c=4)

Cevap:
( y^2−x^2=4,) bir hiperbol

16) ( g(x,y)=x^2+y^2;quad c=0, 1, 2, 3, 4, 9)

17) ( g(x,y)=4−x−y;quad c=0,1, 2, 3, 4)

Cevap:
Düzey eğrileri ( y = -x + (4 - c) ) olan doğrulardır.
Her (c) değeri için bunlar:
( c = 0: , y = -x + 4),
( c = 1: , y = -x + 3),
( c = 2: , y = -x + 2),
( c = 3: , y = -x + 1),
( c = 4: , y = -x ).
Kontur grafiği bir dizi paralel çizgiden oluşur.

18) ( f(x,y)=xy;c=1;quad c=−1)

19) ( h(x,y)=2x−y;quad c=-2,0,2)

Cevap:
( 2x−y=0,2x−y=−2,2x−y=2;) üç satır

20) ( f(x,y)=x^2−y;quad c=1,2)

21) ( g(x,y)=dfrac{x}{x+y};c=−1,0,1,2)

Cevap:
Düzey eğrileri ( y = x left( frac{1-c}{c} ight) ) biçimindeki çizgilerdir. (c = 0) noktasında, (x = 0) elde etmek için onu doğrudan (dfrac{x}{x+y}=0) denkleminden çözeriz.
Her bir (c) değeri için bunlar:
( c = -1: , y = -2x),
( c = 0: , x = 0, ext{ ile }y e 0),
( c = 1: , y = 0, ext{ ile }x e 0),
( c = 2: , y = -frac{1}{2}x).

22) ( g(x,y)=x^3−y;quad c=−1,0,2)

23) ( g(x,y)=e^{xy};quad c=frac{1}{2},3)

Cevap:
Düzey eğrileri ( y = frac{ln c}{x}) biçimindedir.
Her (c) değeri için bunlar:
( c = frac{1}{2}: , y = frac{ln frac{1}{2}}{x}), (y = -frac{ olarak yeniden yazılabilir) ln 2}{x})
( c = 3: , y = frac{ln 3}{x}).

24) ( f(x,y)=x^2;quad c=4,9)

25) ( f(x,y)=xy−x;quad c=−2,0,2)

Cevap:
Seviye eğrileri şu şekildedir: ( y = frac{c}{x} + 1).
Burada (y = frac{-2}{x} + 1,quad y = 1,quad y = frac{2}{x} + 1) veya ( xy−x=−2, ,xy−x=0,,xy−x=2)

26) ( h(x,y)=ln(x^2+y^2);quad c=−1,0,1)

27) ( g(x,y)=ln(frac{y}{x^2});quad c=−2,0,2)

Cevap:
Düzey eğrileri ( y =e^c x^2) biçimindedir.
Her (c) değeri için bunlar:
( c = -2: , y = e^{-2} x^2 ),
( c = 0: , y = x^2 ),
( c = 2: , y = e^{2} x^2 ).

28) ( z=f(x,y)=sqrt{x^2+y^2},quad c=3)

29) ( f(x,y)=dfrac{y+2}{x^2},quad c=) herhangi bir sabit

Cevap:
Düzey eğrileri ( y=cx^2−2, ext{ ile }x e 0) biçimindeki parabollerdir.

30-32 numaralı alıştırmalarda, ( x) ve ( y) belirtilen değerlerinde fonksiyonların dikey izlerini bulun ve izleri çizin.

30) ( z=4−x−y, quad x=2)

31) ( f(x,y)=3x+y^3, quad x=1)

Cevap:

( z=3+y^3,) (zy)-düzlem (x) eksenine paralel hükümlerle

32) ( z=cossqrt{x^2+y^2}, quad x=1)

33 - 38 arasındaki alıştırmalarda, her fonksiyonun alanını ve aralığını bulun.

33) ( z=sqrt{100−4x^2−25y^2})

Cevap:
Etki Alanı: ( {(x, y) | frac{x^2}{25}+frac{y^2}{4}≤1})
Aralık: ( [0, 10] )

34) ( z=ln(x−y^2))

35) ( f(x,y,z)=dfrac{1}{sqrt{36−4x^2−9y^2−z^2}})

Cevap:
Etki Alanı: ( {(x, y, z) | frac{x^2}{9}+frac{y^2}{4}+frac{z^2}{36}<1} )
Aralık: ( [frac{1}{6}, infty) )

36) ( f(x,y,z)=sqrt{49−x^2−y^2−z^2})

37) ( f(x,y,z)=sqrt[3]{16−x^2−y^2−z^2})

Cevap:
Etki Alanı: ( xyz)-space içindeki tüm noktalar
Aralık: ( ig(-infty, sqrt[3]{16}ig] )

38) ( f(x,y)=cossqrt{x^2+y^2})

39 - 40 arasındaki alıştırmalarda, fonksiyonun bir grafiğini çizin.

39) ( z=f(x,y)=sqrt{x^2+y^2})

Cevap:

40) ( z=x^2+y^2)

41) ( z=x^2y.) grafiğini çizmek için teknolojiyi kullanın

Cevap:

42 - 46 numaralı alıştırmalarda, seviye eğrilerini bularak fonksiyonu çizin. CalcPlot3D gibi bir teknolojiyi kullanarak grafiği doğrulayın.

42) ( f(x,y)=sqrt{4−x^2−y^2})

43) ( f(x,y)=2−sqrt{x^2+y^2})

Cevap:

44) ( z=1+e^{−x^2−y^2})

45) ( z=cossqrt{x^2+y^2})

Cevap:

46) ( z=y^2−x^2)

47) ( z=x^2+y^2−2x−2y.) için çeşitli ( c) değerleri için kontur çizgilerini tanımlayın.

Cevap:
Kontur çizgileri, ( (1, 1) ) noktasında ortalanmış eşmerkezli dairelerdir.
Bunu, bu işlevi (c)'ye eşitledikten sonra kareyi tamamlayarak görebilirsiniz.
Yani, ( x^2-2x+1+y^2−2y+1 = c + 2 ) yazarız ve bu, ( (x - 1)^2 + (y - 1)^ şeklinde yeniden yazılabilir. 2 = c + 2 ).
Bu bize, her biri ( sqrt{c+2} ) yarıçapına sahip ( (1, 1) ) noktasında merkezli daireler verir.

48 - 52 numaralı alıştırmalarda, üç değişkenli her fonksiyon için verilen (c) değeri için düz yüzeyi bulun ve tanımlayın.

48) ( w(x,y,z)=x−2y+z,quad c=4)

49) ( w(x,y,z)=x^2+y^2+z^2,quad c=9)

Cevap:
( x^2+y^2+z^2=9), yarıçaplı bir küre ( 3)

50) ( w(x,y,z)=x^2+y^2−z^2,quad c=−4)

51) ( w(x,y,z)=x^2+y^2−z^2,quad c=4)

Cevap:
( x^2+y^2−z^2=4,) bir sayfanın hiperboloidi

52) ( w(x,y,z)=9x^2−4y^2+36z^2,quad c=0)

53 - 55 arasındaki alıştırmalarda, ( P) noktasını içeren ( f) seviye eğrisinin bir denklemini bulun.

53) ( f(x,y)=1−4x^2−y^2,quad P(0,1))

Cevap:
( 4x^2+y^2=1,)

54) ( g(x,y)=y^2arctan x,quad P(1,2))

55) ( g(x,y)=e^{xy}(x^2+y^2),quad P(1,0))

Cevap:
( 1=e^{xy}(x^2+y^2))

56) (y) ekseni boyunca uzanan sonsuz uzunlukta yüklü bir telden kaynaklanan ( (x,y,z)) noktasındaki bir elektrik alanının gücü ( E) ( E( ile verilir) x,y,z)=k/sqrt{x^2+y^2}), burada ( k) pozitif bir sabittir. Basit olması için, ( k=1) ve ( E=10) ve ( E=100.) için düz yüzeylerin denklemlerini bulalım.

57) Demirden yapılmış ince bir levha (xy)-düzleminde yer almaktadır ( P(x,y)) noktasındaki sıcaklık ( T) santigrat derece olarak, onun karesiyle ters orantılıdır. orijinden uzaklık. ( T)'yi ( x) ve ( y)'nin bir fonksiyonu olarak ifade edin.

Cevap:
( T(x,y)=frac{k}{x^2+y^2})

58) Önceki soruna bakın. Orada bulunan sıcaklık fonksiyonunu kullanarak, ( P(1,2)) noktasındaki sıcaklık ( 50°C.) ise orantı sabitini belirleyin. ( Q(3, 4).)

59) Önceki soruna bakın. ( T=40°C) ve ( T=100°C,) için seviye eğrilerini bulun ve seviye eğrilerinin neyi temsil ettiğini açıklayın.

Cevap:
( x^2+y^2=frac{k}{40}, quad x^2+y^2=frac{k}{100}). Düzey eğrileri, yarıçapları ( sqrt{10k}/20) ve ( sqrt{k}/10) dairelerini temsil eder.

Katkıda Bulunanlar

  • Gilbert Strang (MIT) ve Edwin “Jed” Herman (Harvey Mudd), katkıda bulunan birçok yazarla birlikte. OpenStax'ın bu içeriği bir CC-BY-SA-NC 4.0 lisansı ile lisanslanmıştır. http://cnx.org adresinden ücretsiz olarak indirin.

  • Paul Seeburger (Monroe Community College) LaTeX'i düzenledi ve 17, 21 ve 29. problemlerin cevaplarına kontur grafikleri ekledi.

Bölüm 13: Çoklu Gerileme

Cevap: Arabalar93'te (şimdi E13_1) 93 gözlem vardır, 27 değişken adı Yorum 3 altında listelenmiştir. Araç tipine göre frekans dağılımı, Yorum 4 altında verilmiştir.

2. Türün Sportif veya Van olduğu tüm gözlemleri hariç tutmak için E13_1 verilerini alt kümeye alın, sonucu E13_2 nesnesine aktarın. E13_2'ye kaç gözlem dahildir? E13_2'deki Tip değişkeni için frekans dağılımı Sporty ve Van gözlemlerinin hariç tutulduğunu gösteriyor mu?

#Yorum1. Aşağıdakileri içeren tüm gözlemleri bırakmak için indekslemeyi [ ] ayarlayın.
#Sportif veya Van. (Ünlem işaretinin ! olması gerektiğini unutmayın.
#her koşuldan önce kullanılır. Böylece kodu döndürmeye yönlendiriyoruz
Type olanlar HARİÇ tüm değişkenleri içeren #data
#Sportif veya Van.) E13_2 nesnesine aktarın.

E13_2 <- E13_1[!(E13_1$Type=="Sportif") & !(E13_1$Type=="Van"), ]
#Yorum2. içindeki gözlem sayısını bulmak için nrow() işlevini kullanın.
#yeni nesne E13_2.

nrow(E13_2)
## [1] 70
#Yorum3. dağılımını bulmak için table() işlevini kullanın.
#E13_2 nesnesine dahil edilen araç türleri.

tablo(E13_2$Tür)
##
## Kompakt Büyük Orta Boy Küçük Sportif Van
## 16 11 22 21 0 0

Cevap: Evet, E13_2 nesnesi artık herhangi bir sportif araç veya kamyonet içermiyor. E13_2'deki gözlem sayısı 93'ten 70'e düştü.

3. Gerçek analizden önce verilerimizi “şekillendirme” konusunda biraz daha pratik yapmak için, MPG.city, Weight ve Passengers dışındaki tüm değişkenleri hariç tutmak ve E13_3 adlı bir nesneye içe aktarmak için E13_2 (bir kez daha) alt kümesini yapın. Değişken adlarını listeleyin. Kaç gözlem var?

#Yorum1. İndekslemeyi ayarla [ ] için düşürmek herşey dışındaki değişkenler

#MPG.city, Ağırlık ve Yolcular. E13_3'e aktarın.

E13_3 <- E13_2[, c("MPG.city", "Ağırlık","Yolcular")]

#Yorum2. Değişken adlarını listelemek için name() işlevini kullanın.
isimler(E13_3)
## [1] "MPG.city" "Ağırlık" "Yolcular"
#Yorum3. içindeki gözlem sayısını bulmak için nrow() işlevini kullanın.
#yeni nesne E13_3.

nrow(E13_3)
## [1] 70
#Yorum4. Temel bilgileri bulmak için özet() ve tablo() işlevlerini kullanın.
#değişkenler için tanımlayıcı istatistikler.

özet(E13_3$MPG.city)
## Min. 1. Qu. Medyan Ortalama 3. Qu. Maks.
## 16.00 19.00 22.00 23.17 25.00 46.00
özet(E13_3$Ağırlık)
## Min. 1. Qu. Medyan Ortalama 3. Qu. Maks.
## 1695 2534 3008 3010 3495 4105
tablo(E13_3$Yolcular)
##
## 4 5 6
## 11 41 18

Cevap: E13_3 nesnesindeki MPG.city, Weight ve Passengers 3 değişkeninde 70 gözlem var. Temel tanımlayıcı istatistikler Yorumlar 4 ve 5'te verilmektedir. Not: Burada sahip olduğumuz gibi tüm değişkenleri bırakmamız için zorlayıcı bir neden yoktur. Analizimizin istatistiksel kısmı, onlarla veya onsuz gayet iyi ilerleyebilir. Bu alıştırma için, bunu yalnızca ek uygulama alt küme verileri alma fırsatı sağladığı ve verileri düzenlediğimiz için (iyi temizlik) yaptık. Veriler artık yalnızca en çok ilgilendiğimiz gözlemleri ve değişkenleri içeriyor.

4. Bölüm 12 Alıştırmalarında elde edebildiklerimizden daha açıklayıcı ve tahmin edici güce sahip bir regresyon modeli oluşturma girişiminde, şimdi bağımsız değişken MotorBoyutu'nu Ağırlık ve Yolcu değişkenleri ile değiştiriyoruz. (Bu alıştırmada, bağımlı değişken hala MPG.city'dir.) İlk adım olarak, her bir bağımsız değişkenin bağımlı değişkenle doğrusal olarak ilişkili olduğunu ancak birbiriyle güçlü bir şekilde ilişkili olmadığını doğrulamak için pairs() işlevini kullanın. Yorum Yap.

#Yorum Yap. Bir dağılım grafiği oluşturmak için pairs() işlevini kullanın.
#tüm değişkenler, ikili olarak alınır. Bastırmak için alt.panel=NULL olarak ayarlayın
#alt köşegende araziler üretmek (gereksiz).

çiftler(E13_3, pch = 19, alt.panel = NULL)

Cevap: Dağılım grafiklerinin ortaya çıkardığı bir özellik, bağımsız değişken Yolcular ile diğer iki değişken olan MPG.city ve Weight arasındaki ilişkiyi gösteren sağ taraftaki iki grafikteki noktaların tuhaf konfigürasyonudur. Özellikle, üç Yolcu değeri için puanlar birbirinin üzerine yığılmış gibi görünüyor. Yolcu değişkeninin neyi ölçtüğünü düşündüğümüzde - bir aracın yolcu kapasitesi (kişi) - açıklama açıktır: veriler sadece 4, 5 veya 6 yolcu alabilen araçları içerir. (Spor arabaları ve minibüsleri, muhtemelen farklı sayıda yolcu alabilen araçları içeren gözlemleri bıraktığımızı unutmayın.) Öyle olsa bile, Yolcular ve MPG.city arasındaki ilişkinin genellikle olumsuz olduğunu, yani ağırlayabilen araçların olumsuz olduğunu görebiliriz. daha fazla yolcu, daha düşük şehir kilometresine sahip olma eğilimindedir. Yolcular ve Ağırlık arasındaki ilişki genellikle pozitiftir - daha fazla yolcu alabilen araçlar daha ağırdır - bir tür çoklu bağlantının kanıtı olan bir ilişkidir. Son olarak, Weight ve MPG.city arasındaki ilişki hem negatif hem de nispeten lineer görünmektedir.

5. İki değişken (Yolcular ve Ağırlık) arasında çoklu bağlantı olasılığından (önceki alıştırmada) söz edilmiştir. Bunun bir sorun olup olmadığını araştırmak için başka bir yol düşünebiliyor musunuz?

#Yorum Yap. Korelasyonu bulmak için cor() işlevini kullanın.
cor(E13_3$Yolcular, E13_3$Ağırlık)
## [1] 0.5732935

Cevap: r = 0:5732935 korelasyonu, bu iki bağımsız değişken arasındaki çoklu bağlantının varlığının açık ve net bir göstergesi olsa da, analizi hiç yapamayacak kadar şiddetli değildir. Aslında, bazı yetkililer kullandıkları genel kuralı şu şekilde bildirmektedir: if |r| > 0:70—yani, r > 0:70 veya r < –0:70 ise—muhtemelen her iki değişkeni de eklemeyeceğiz. r = 0:5732935 bu aralığa girmediğinden, bu analize her iki bağımsız değişkeni de dahil ediyoruz.

6. Artık bir arsa yapın ve inceleyin. Model, bu verilere uygulandığında bu metodolojinin uygunluğunu sorgulayabilecek herhangi bir şey ortaya koyuyor mu?

#Yorum1. adlı model nesnesini oluşturmak için lm() işlevini kullanın.
#mr1 (ilk çoklu regresyon modeli).
mr1 <- lm(MPG.city

Ağırlık + Yolcu, veri = E13_3)
#Yorum2. Artık bir çizim oluşturmak için plot() işlevini kullanın.
#resid(mr1) öğesinin bağımsız değişken olarak dahil edilmesi gerektiğine dikkat edin.

arsa(takılmış(mr1), ikamet(mr1),
abline(h = 0),
pk = 19,
xlab = 'y'nin Tahmini Değeri' ,
ylab = 'Kalıntı' )

Cevap: arasındaki ilişkinin modeliyle ilgili temel varsayımları tekrarlamak için iyi bir yerdir. y ve bağımsız değişkenler x1, x2. xk. Buradaki tartışmayı yeniden ele almamızın nedeni, artıkların analizinin, analistler tarafından bazen gözden kaçırılan ve hatta yanlış anlaşılan önemli bir adım olmasıdır. Artıkların veya hata terimlerinin şu şekilde tanımlandığını hatırlayın:

Bir dizi değişkenin, regresyon analizinin doğru kullanımının altında yatan varsayımlara uyup uymadığını doğrulamanın iyi bir yolu, artıkların bir grafiğini oluşturmak ve incelemektir. bağımsız değişkene karşı x . Bununla birlikte, basit doğrusal regresyon durumunda yaptığımız ile çoklu regresyon için bunu nasıl yaptığımız arasındaki bir fark, artık birden fazlasına sahip olmamız nedeniyle artıkları bağımsız değişkene karşı genellikle çizmememizdir. (Aslında,
artıklar bazen tek tek bağımsız değişkenlere karşı çizilir, ancak bunu burada yapmıyoruz.) Bunu göz önünde bulundurarak, bunun yerine artıkları bağımlı değişkenin tahmin edilen değerine karşı çizebiliriz. ŷ.

Artık grafiğin üstünkörü bir incelemesi, herhangi bir veri kümesine bir regresyon modelinin doğru uygulanmasının altında yatan yukarıdaki 3 varsayımın çok iyi karşılanmadığını ortaya koymaktadır. Bir şey için, varyans s aralığında sabit değildir. ŷ değerler. Bir diğeri için artıklar s normal dağılımlı görünmüyor.

Bu nedenlerden dolayı, sadece regresyonu nasıl uyguladığımız konusunda değil (örneğin tahmin amacıyla olduğunda), aynı zamanda onu yorumlamamızda da dikkatli olmalıyız. Sonraki alıştırmalarda yapmayı planladığımız gibi, hala E13_3 verileri üzerinde regresyon analizini yürütebiliriz, ancak (birçok veri seti gibi) regresyon analizinin uygun uygulamasının arkasındaki varsayımların zayıf olduğu gerçeğini aklımızda tutmalıyız. tanışmak.

7. Önceki alıştırmada artık grafiğini oluşturmanın bir parçası olarak, tahmin edilen regresyon denkleminin kendisi de dahil olmak üzere, regresyon problemiyle ilgili tüm önemli bilgileri içeren model nesnesi olan mr1'i oluşturmak için lm() işlevini kullandık. Tahmini regresyon denklemi nedir?

Ağırlık + Yolcu, veri = E13_3)
##
## Katsayılar:
## (Kesme) Ağırlık Yolcu
## 53.644618 -0.007617 -1.479297

Cevap: Tahmini regresyon denklemi ŷ = b0 + b1x1 + b 2 x2 = 53:644618 – 0:007617x1 – 1:479297x2 nerede ŷ bağımsız değişkenlere göre tahmin edilen bağımlı değişkendir, x1 Ağırlık ve x2 Yolcular'dır.

8. Regresyon katsayılarının yüzde 70 güven aralığı tahminlerini bulun b1 ve B2. Bu güven aralıklarının ne anlama geldiğini açıklayın.

#Yorum Yap. bulmak için confint(, level =) işlevini kullanın.
#regresyon katsayılarının güven aralığı tahminleri.

sınır(mr1, seviye = 0.70)
## 15 % 85 %
## (Kesme) 50.594506526 56.69472945
## Ağırlık -0.008404125 -0.00683022
## Yolcular -2.200999813 -0.75759321

Cevap: %70 olasılıkla regresyon katsayısı b1 –0.00844125 ile –0.00683022 arasındaki aralığa düşer ve regresyon katsayısı b2 -2.200999813 ile -0.75759321 arasındaki aralığa düşer.

9. Tahmini regresyon denklemi bize ne söylüyor?

Cevap: En azından bu veri için (spor arabalar ve kamyonetler hariç), Binek araç kapasitesini sabit tutarsak, araç Ağırlığındaki 1 pound'luk bir değişikliğin MPG.city'deki 0,007617'lik bir değişiklikle ilişkili olduğunu söyleyebiliriz. Ayrıca, araç Ağırlığını sabit tutarsak, araç kapasitesindeki 1 Yolcu değişikliği MPG.city'deki 1.479297 değişiklikle ilişkilidir. Kısmi regresyon katsayıları negatif bir işarete sahip olduğundan, (1) MPG.city ve Weight'in negatif ilişkili olduğunu biliyoruz: Ağırlık olarak
artar (azalır), MPG.city azalır (artar) ve (2) MPG.city ve Yolcular negatif ilişkilidir: Yolcular arttıkça (azaldıkça), MPG.city azalır (artar). Basit doğrusal regresyon durumunda olduğu gibi, kesişme terimi b0 = 53.644618 anlamlı değil. Bununla birlikte, tahmin nedenleriyle onu regresyon denkleminin kendisinde tutuyoruz.

10. Ağırlık ve Yolcu bağımsız değişkenleri ile bağımlı değişken olan MPG.city arasındaki ilişkinin gücü nedir? Aşağıdaki ifadeyi kullanarak r 2 belirleme katsayısını bulun (daha sonra kullanacağımız regresyon istatistiklerini açmak için özet() işlevini kullanmayın). Bu alıştırma, kodlama becerilerinizi geliştirmek için başka bir fırsat sağlar.

#Yorum1. Toplam kareler toplamını bulun, ss_y.
ss_y <- toplam((E13_3$MPG.city - ortalama(E13_3$MPG.city)) ^ 2)
#Yorum2. Kalan kareler toplamını bulun, ss_res.
ss_res <- toplam((resid(mr1)) ^ 2)

#Yorum3. Belirleme katsayısını bulun. içe aktar
#result r_square adlı nesneye.

r_square <- (ss_y - ss_res) / ss_y
#Yorum4. r-karenin değeri nedir?
R Meydanı
## [1] 0.7453017

Cevap: Belirleme katsayısı, r 2 = 0.7453017.

11. Belirleme katsayısı nedir r 2 regresyon modeli hakkında bilgi verir misiniz?

Cevap: Yorumluyoruz r 2 = 0.7453017 şu şekilde: bağımlı değişkendeki varyasyonun yaklaşık %74.53'ü ŷ (MPG.city), iki bağımsız değişkendeki varyasyonla açıklanabilir (veya açıklanabilir), x1 (Ağırlık) ve x2 (Yolcular). Ayrıca, varyasyonun kabaca %25.47'sinin ŷ açıklanamayan veya açıklanmayan kalır.

12. Düzeltilmiş belirleme katsayısı nedir?

Cevap: ayarlanmış-r 2 = 0.7377.

adj_r_square <- r_square - (2 * (1 - r_square)) / (70 - 2 - 1)
adj_r_square
## [1] 0.7376987

13. Nedir F genel regresyon modeli için istatistik?

Cevap: F = 98.02815

#Yorum1. Payın payını bulun.
ss_reg <- toplam((takılmış(mr1) - ortalama(E13_3$MPG.city)) ^ 2)
#Yorum2. F istatistiğinin payını bulun.
F_numer <- ss_reg / 2
#Yorum3. F istatistiğinin payı nedir?
F_sayı
## [1] 889.1236
#Yorum4. Paydanın payını bulun.
ss_res <- toplam((resid(mr1)) ^ 2)
#Yorum5. F istatistiğinin paydasını bulun.
F_denom <- ss_res / (70 - 2 - 1)
#Yorum6. F istatistiğinin paydası nedir?
F_denom
## [1] 9.070084
#Yorum7. F_sayısının F_denom'a oranı F istatistiğidir.
F <- F_numer / F_denom

#Yorum8. F istatistiği nedir?
F
## [1] 98.02815

14. Bu regresyon denklemi için ANOVA tablosundaki eksik girişleri tamamlayın.

Cevap: Eksik girişler, aşağıdaki tabloda kalın harflerle yazılmış sayılardır.

#Yorum1. Eksik değerlerin ilk satırı için hesaplamalar.
ss_reg <- toplam((takılmış(mr1) - ortalama(E13_3$MPG.city)) ^ 2)
ss_reg
## [1] 1778.247
ms_reg <- ss_reg / 2
ms_reg
## [1] 889.1236
#Yorum2. Eksik değerlerin ikinci satırı için hesaplamalar.
ss_res <- toplam((resid(mr1)) ^ 2)
ss_res
## [1] 607.6957
ms_res <- ss_res/ (70 - 2 - 1)
ms_res

## [1] 9.070084
#Yorum3. F istatistiği için hesaplama.
f <- ms_reg / ms_res
f
## [1] 98.02815

15. p değeri nedir F = df için 98.02815N = k = 2 ve dfD = n – k –1 =70 – 2 –1 = 67?

seçenekler(scipen = 999)
pf(98.02815, 2, 67, alt.kuyruk = YANLIŞ)
## [1] 0.0000000000000000000126437

16. Değerleri de dahil olmak üzere bu tablodaki eksik girişleri tamamlayın. t iki regresyon katsayısı için ilişkili p değerlerinin yanı sıra.

Cevap: Eksik girişler, aşağıdaki tabloda kalın harflerle yazılmış sayılardır.

bo için #p-değeri
2 * pt(18.371, 68, alt.kuyruk = YANLIŞ)
## [1] 0.0000000000000000000000000004534737
b1 için #p-değeri
2 * nokta(-10.110, 68)
## [1] 0.000000000000003486782
b2 için #p-değeri
2 * nokta(-2.141, 68)
## [1] 0.03586164

17. Çalışmamızı kontrol etmek için özet() çıkarıcı işlevini kullanın. Argüman olarak mr1 model nesnesini kullanmayı unutmayın. Raporlanan istatistikler, önceki alıştırmalarda üzerinde çalışılan istatistiklerle uyumlu mu?

#Yorum1. Son derece küçük değerleri bildirmek için options(scipen=999) kullanın
#standart (bilimsel değil) gösterimde.

seçenekler(scipen = 999)
#Yorum2. Ayıklamak için özet() işlevini kullanın
#regresyon istatistikleri.

özet(mr1)
##
## Aramak:
## lm(formül = MPG.city

Ağırlık + Yolcu, veri = E13_3)
##
## Artıklar:
## Min 1Q Medyan 3Q Maks
## -5.6650 -1.2245 0.0043 0.9515 12.1729
##
## Katsayılar:
## Tahmini Std. Hata t değeri Pr(>|t|)
## (Kesme) 53.6446180 2.9201150 18.371 < 0.0000000000000002 ***
## Ağırlık -0.0076172 0.0007534 -10.110 0.00000000000000411 ***
## Yolcular -1.4792965 0.6909441 -2.141 0.0359 *
## ---
## Anlamı. kodlar: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 1
##
## Artık standart hata: 67 serbestlik derecesinde 3.012
## Çoklu R-kare: 0.7453,Ayarlanmış R-kare: 0.7377
## F-istatistiği: 2 ve 67 DF'de 98.03, p-değeri: < 0.00000000000000022

Cevap: Özet() işlevini kullanarak ulaşılan tüm sonuçlar, neyin ne olduğunu doğrular.
önceki alıştırmalarda bulunmuştur: tahmini regresyon denklemi ŷ = 53.6446180 – 0.0076172x1 – 1.4792965x2 belirleme katsayısı r 2 = 0.7453 ayarlanmış-r2 = 0.7377 F istatistik F = 98.03 ve F istatistiğin p değeri=0.0000000000000000000126437.

Burada rapor edilen (lm() işlevini çalıştırarak bulunan) p değeri ile önceki alıştırmada kodu yazarak bulunan p değeri arasındaki küçük farkı güvenle görmezden gelebiliriz. lm() gibi işlevler için, R tarafından saklanan ve yazdırılan en küçük kayan nokta 2.2e-16'dır (15 sıfırlı bir değer). Bu nedenle, yukarıdaki çıktının son satırında daha önce görmediğimiz notasyon yer alır: p-değeri< 0:00000000000000022.
Gerçek bir değer 15'ten fazla sıfır içerdiğinde, önceki alıştırmada olduğu gibi - burada p-değeri=0.00000000000000000000126437 19 sıfır içerir- lm() işlevi basitçe p-değerini bildirir:< 0.000000000000022. Bundan bahsetmemizin tek nedeni, neden herhangi bir fark olduğunu merak etmemizdir. Pratik olarak konuşursak, elbette, bu değerlerde gerçek bir fark yoktur.

18. Aşağıdaki değerler için MPG.city'nin tahmin edilen değerlerini bulmak için tahmini regresyon denklemini ve tahmin() işlevini kullanın: birinci çift için Ağırlık=2000 ve Yolcular=6, ikinci çift için Ağırlık=3000 ve Yolcular=5 , ve üçüncü çift Ağırlık=4000 ve Yolcular=4.

#Yorum1. Yeni bir nesne oluşturmak için data.frame() kullanın. adlandırın
#yeni nesne yeni değerleri.

yeni değerler <- data.frame(Ağırlık = c(2000, 3000, 4000), Yolcular = c(6, 5, 4))
#Yorum2. newvalues ​​adlı nesnenin içeriğini inceleyin
#sadece bizim düşündüğümüz şeyi içerdiğinden emin olmak için.

yeni değerler
## Ağırlık Yolcular
## 1 2000 6
## 2 3000 5
## 3 4000 4
#Yorum3. Tahmin edilen değerleri sağlamak için tahmin() işlevini kullanın
Yeni Ağırlık ve Yolcu değerleri için galon başına mil sayısı.

tahmin(mr1, yeni değerler)
## 1 2 3
## 29.53449 23.39662 17.25874

Cevap: İlk Ağırlık=2000 ve Yolcu=6 çifti için tahmin edilen değer ŷ dır-dir
İkinci çift için 29.53449 mpg Ağırlık=3000 ve Yolcu=5, tahmin edilen değer ŷ 23.39662'dir ve üçüncü Ağırlık=4000 ve Yolcu=4 çifti için tahmin edilen değer ŷ 17.25874 mpg'dir.

19. Tahmini regresyon denklemini kalibre etmek için kullanılan MPG.city'nin tahmin edilen değerleri nelerdir? ŷ = 53.6446180 – 0.0076172x1 – 1.4792965x2? Bu tahmin edilen değerleri mileage_predicted adlı bir nesneye aktarın ve ilk ve son üç öğeyi listeleyin.

Cevap: #Yorum1. Tahmin edileni oluşturmak için takılmış(mr1) işlevini kullanın.
#bağımlı değişkenin değerleri. Bu değerleri içe aktar
#mileage_predicted adlı nesne.

mileage_predicted <- takılmış(mr1)
#Yorum2. Listelemek için head(,3) ve tail(,3) fonksiyonlarını kullanın.
#tahmin edilen değerlerin ilk ve son üç değeri.

kafa(mileage_predicted, 3)
## 1 2 3
## 25.64368 19.13100 20.54018
kuyruk(mileage_predicted, 3)
## 90 92 93
## 23.51088 23.51088 21.53041

20. mileage_predicted nesnesini (önceki alıştırmada oluşturulmuş) E13_3'e ekleyin ve ortaya çıkan nesneyi E13_4 olarak adlandırın. İlk ve son dört elementi listeleyin. Gerçek ve tahmin edilen değişkenlerin korelasyonunu, yani MPG.city ve tahmin edilen kilometrenin korelasyonunu bulun. Korelasyona sahip olduğunuzda, karesini alın (yani ikinci güce yükseltin). Korelasyonun karesini yorumlayın. Bu ne?

Cevap: #Yorum1. Sütunu bağlamak için cbind() işlevini kullanın
#mileage_predicted - E13_3. Yeni nesneyi E13_4 olarak adlandırın.

E13_4 <- cbind(E13_3, mil_tahmini)
#Yorum2. E13_4'ün ilk ve son dört öğesini listeleyin.
kafa(E13_4, 4)
## MPG.city Ağırlık Yolcular mileage_predicted
## 1 25 2705 5 25.64368

## 2 18 3560 5 19.13100
## 3 20 3375 5 20.54018
## 4 19 3405 6 18.83237
kuyruk(E13_4, 4)
## MPG.city Ağırlık Yolcular mileage_predicted
## 88 25 2240 4 30.66497
## 90 21 2985 5 23.51088
## 92 21 2985 5 23.51088
## 93 20 3245 5 21.53041
#Yorum3. Gerçek ve tahmin edilenin korelasyonunu bulun
#bağımlı değişkenler. Sonucu r adlı bir nesnede saklayın.

r <- cor(E13_4$MPG.city, mileage_predicted)
#Yorum4. r'nin içeriğini inceleyin.
r
## [1] 0.8633086
#Yorum5. r değerinin karesini alın.
r^2
## [1] 0.7453017

Gerçek bağımlı değişken ile tahmin edilen bağımlı değişkenin korelasyonunun karesi, belirleme katsayısına, r 2'ye eşittir.

21. Aşağıdaki tahmini regresyon denklemini göz önünde bulundurun: ŷ = 3536 + 1183x1 – 1208x2. Modelin x'in silinmesini yansıtacak şekilde değiştirildiğini varsayalım.2 ve elde edilen tahmini basit doğrusal denklem olur ŷ = –10663 + 1386x1.

(a) Tahmini basit doğrusal regresyon denkleminde x1 üzerindeki katsayının anlamını nasıl yorumlamalıyız? ŷ = –10663 + 1386x1?

Cevap: Bağımsız değişken x'te 1 birimlik bir değişiklik1 bir beklenen ile ilişkilidir
bağımlı değişkende 1.386 birimlik değişim ŷ

(b) x üzerindeki katsayının anlamını nasıl yorumlamalıyız?1 tahmin edilen çoklu regresyon denkleminde ŷ = 3536 + 1183x1 –1208x2?

Cevap: Bağımsız değişken x'te 1 birimlik bir değişiklik1 bir beklenen ile ilişkilidir
bağımlı değişkende 1.183'lük değişim ŷ diğer bağımsız değişken ise
x2 sabit tutulur.

(c) Çoklu bağlantı olduğuna dair herhangi bir kanıt var mı? O delil ne olabilir?

Cevap: x arasında bir miktar çoklu bağlantı vardır.1 ve x2 x'in devreye girmesiyle katsayı 1.386'dan 1.183'e değiştiği için2 regresyon modeline girer. Bağımsız değişkenlerin tamamen ilişkisiz olması durumunda, katsayı değişmez.

22. Aşağıdaki sonuçları yorumlayın ve aşağıdaki soruları cevaplayın. Diyelim ki bağımlı değişkeni geri alıyoruz y üzerinde 4 bağımsız değişkenler x1, x2, x3, ve x4. regresyonu çalıştırdıktan sonra n = 16 gözlem, aşağıdaki bilgilere sahibiz: SSkayıt = 946.181 ve SSres = 49.773. Lütfen gelecek soruları cevaplayın.

Cevap: 0.95

(b) Düzeltilmiş olan nedir?r2

Cevap: 0.932

(c) F istatistiği nedir?

Cevap: F = 52.277

Cevap: p-değeri=0.0000

pf(52.277, 4, 11, alt.kuyruk = YANLIŞ)
## [1] 0.0000004338219

(e) Genel regresyon modeli anlamlı mı? = 0:05 anlamlılık düzeyinde test edin.

Cevap: Evet, p-değeri= 0:0000 <α = 0:05 olduğundan, tahmin edilen regresyon modelinin anlamlı olduğu sonucuna varıyoruz.

23. Bir önceki alıştırmaya atıfta bulunarak, kısmi regresyon katsayıları hakkında da aşağıdaki bilgilere sahip olduğumuzu varsayalım.

(a) b1 a = 0:05'te anlamlı mı? t değeri nedir? p değeri nedir?

Cevap:

(b) b'dir2 = 0:05'te anlamlı mı? Bu ne t değer? p değeri nedir?

Cevap:

(c) b'dir3 a = 0:05'te anlamlı mı? t değeri nedir? p değeri nedir?

Cevap: t = 3:9340 ve p-değeri= 0:002336 < a = 0:05 olduğundan b 3 anlamlıdır.

2 * pt(3.9340, 11, alt.kuyruk = YANLIŞ)
## [1] 0.002335972

(d) b4 a = 0:05'te anlamlı mı? t değeri nedir? p değeri nedir?

Cevap: t = 1:8232 ve p-değeri= 0:09554 > = 0:05 olduğundan, b4 anlamlı değildir.

2 * pt(1.8232, 11, alt.kuyruk = YANLIŞ)
## [1] 0.09553817

24. Aşağıdaki tahmini çoklu regresyon denklemini göz önünde bulundurun:

(a) Bu ANOVA tablosundaki eksik girişleri tamamlayın.

Cevap: (a) bölümünün yanıtları aşağıdaki tabloda koyu harflerle gösterilmiştir.

pf(21.1331, 3, 6, alt.kuyruk = YANLIŞ)
## [1] 0.001366979

(b) Bu katsayı tablosundaki eksik girişleri tamamlayın.

Cevap: (b) bölümünün yanıtları aşağıdaki tabloda koyu harflerle gösterilmiştir.

bo için #p-değeri
2 * nokta(-0.5737, 6)
## [1] 0.5870154
b1 için #p-değeri
2 * pt(5,362, 6, alt.kuyruk = YANLIŞ)
## [1] 0.001724838
b2 için #p-değeri
2 * pt(3.439, 6, alt.kuyruk = YANLIŞ)
## [1] 0.01381786
b3 için #p-değeri
2 * pt(0.823, 6, alt.kuyruk = YANLIŞ)
## [1] 0.4419823

Cevap: 0.914

(d) Ayarlanmış-r 2 nedir?

Cevap: 0.871

25. Bu alıştırma, R'de kurulu olan mtcars veri setini kullanır.

(a) 3 değişken için bir dağılım grafiği matrisi oluşturmak üzere pairs() işlevini kullanın: mpg, cyl ve wt. Bu değişkenler arasındaki ilişkiler hakkında ne söyleyebiliriz?

Cevap: pairs() işlevini, yalnızca mpg (sütun 1), cyl (sütun 2) ve wt (sütun 6) değişkenlerini içeren bir mtcars alt kümesine uygulayabiliriz. Her değişkenin sütun konumunu belirlemek için tail() işlevini kullanırız.

kuyruk(mtcars, 2)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Maserati Bora 15.0 8 301 335 3.54 3.57 14,6 0 1 5 8
## Volvo 142E 21,4 4 121 109 4,11 2,78 18,6 1 1 4 2
çiftler(mtcars[, c(1, 2, 6)], pch = 19, alt.panel = NULL)

Dağılım grafiğinden, mpg'nin cyl ve wt ile negatif ilişkili olduğu ve cyl'nin wt ile pozitif ilişkili olduğu açıktır.

(b) mpg bağımlı değişkenini cyl ve wt değişkenleri üzerinde regrese edin. Tahmini regresyon denklemini yazın.

silindir + ağırlık, veri = mtcars)
reg_eq_mileage

silindir + ağırlık, veri = mtcars)
##
## Katsayılar:
## (Kesme) silindir ağırlığı
## 39.686 -1.508 -3.191

Tahmini regresyon denklemi: ŷ = 39:69–1:51x1–3:19x2, burada ŷ mpg'nin tahmin edilen değeridir, x1 silindir ve x2 ağırlıktır. Kısmi regresyon katsayılarının negatif bir işarete sahip olması, yukarıdaki dağılım grafikleri açısından şaşırtıcı değildir.

(c) Orijinal veri setindeki cyl ve wt değerleri için tahmin edilen bağımlı değişkenleri yaratmak için uygun fonksiyonu kullanın. Sadece tahminlerin doğru olduğunu kontrol etmek için 2 gözlem seçin ve tahmin edilen değeri manuel olarak hesaplayın.

öngörülen <- takılmış(reg_eq_mileage)
kuyruk(tahmin edilen, 2)
## Maserati Bora Volvo 142E
## 16.23213 24.78418

Cevap: From part (a), we see that for the Maserati Bora, cyl = 8 and wt = 3.57. Plugging these values into the estimated regression equation, we find that ŷ= 39.69 – 1.51x1 – 3.19x2 = 39.69 – 1.51(8) – 3.19(3.57) = 16.23. For the Volvo 142E, cyl = 4 and wt = 2.78, ŷ = 39.69–1.51(4)–3.19(2.78) = 24.78.

(d) Use the predict() function to create the predicted dependent variable for the following pairs of values of the independent variables: for the first pair cyl=4 and wt=5 for the second pair cyl=8 and wt=2

newvalues <- data.frame(cyl = c(4, 8), wt = c(5, 2))
predict(reg_eq_mileage, newvalues)
## 1 2
## 17.70022 21.24196

To check these predicted values, we simply plug (a) cyl = 4 and wt = 5 and
(b) cyl = 8 and wt = 2 into ŷ = 39.69–1.51x1–3.19x2 and find ŷ in each case:
ŷ = 39.69–1.51(4)–3.19(5) = 17.70 and ŷ = 39.69–1.51(8)–3.19(2) = 21.24.


Independent random variables expectation of the product.

It is not generally the case that (E(XY) = E(X)E(Y)) . For example, imagine a single fair coin flip, and let (X) be the indicator variable for the flip being heads. That is, (S = ) , (X(h) = 1) , and (X(t) = 0) .

We see (E(X) = 1/2) . Moreover, (Xcdot X = X) , because ((X cdot X)(h) = X(h)X(h) = 1) and ((X cdot X)(t) = X(t)X(t) = 0) .

Thus (E(Xcdot X) = E(X) = 1/2) but (E(X)E(X) = 1/4) .

However, we have the following:

Definition: Two random variables (X) and (Y) are independent if the events (X = x) and (Y = y) are independent for all (x) and (y) .

Claim: If (X) and (Y) are independent, then (E(XY) = E(X)E(Y)) .

Proof: Well,

xy=z> Pr(X = x cap Y = y) end ] Now, the union of the events ((X = x) cap (Y = y)) over all (x) and (y) with (xy = z) is just the event (XY = z) . Moreover, these are disjoint, so we have [left[sum_<>

xy=z> Pr(X = x cap Y = y) ight] = Pr(XY = z)] Plugging this in gives [E(X)E(Y) = cdots = sum_z zPr(XY = z) = E(XY)] by defintion.


3.4 Student’s t-Test in R

3.4.1 One Sample t-Test

Mass produced beers (e.g., Bud Light, Miller Lite, etc.) have 4.2% ABV. Suppose we want to test if Minnesota beers have the same mean ABV as mass produced beers [ H_0: mu = 4.2 quad mbox quad H_1: mu eq 4.2 ] where (mu) is the mean ABV, and (H_0) and (H_1) denote the null and alternative hypotheses. Assuming that the ABV scores are normally distributed, the t.test function can be used to test the null hypothesis

The observed t statistic is (t = 13.13) with 43 degrees of freedom, resulting in a p-value of essentially zero—we reject (H_0) using any standard (alpha) level. The sample mean is (ar = 5.8) % ABV and the 95% confidence interval for the (mu) (population mean ABV of Minnesota beers) is 5.6% to 6.1% ABV.

If we expect that the Minnesota beers have higher ABV than mass produced beers, i.e., [ H_0: mu = 4.2 quad mbox quad H_1: mu > 4.2 ] we need to adjust the alternative giriş

The only noteworthy difference is that the confidence interval is now a 95% lower bound for the mean ABV of Minnesota beers, which we expect to be at least 5.6% ABV. Note that changing the alternative also changes the p-value, but for this example we do not notice (because the p-value is so small).

3.4.2 Two Sample t-Test

Suppose that we want to test if IPA beers have higher ABV than non-IPAs (Ales and Lagers) [ H_0: mu_1 = mu_2 quad mbox quad H_1: mu_1 > mu_2 ] where (mu_1) and (mu_2) denote the mean ABV of IPA and non-IPA beers, respectively.

To use the t.test function for a two sample t-test, we need to input two vectors

The observed t statistic is (t = 7.45) with 40.53 degrees of freedom, resulting in a p-value of essentially zero—we reject (H_0) using any standard (alpha) level. The sample mean difference is (ar_1 - ar_2 = 1.22) % ABV and the 95% lower-bound confidence interval reveals that we expect IPAs to have at least 0.94% more ABV than non-IPAs.

The default uses the Welch version, which does not assume equal variance for the two groups. var.equal input can be used to change this assumption, which produces the classic two sample t-test

Note that the observed t-test statistic, p-value, and 95% lower-bound are slightly different, but our conclusion does not change: we expect IPAs to have at least 0.9% more ABV than non-IPAs.


6.4 Exercise 304.1

Question 304.1.1: Which one of the boxplot or violin plot above do you think better illustrate the different distributions, and what do the two graphics say about the distribution of people aged 20 to 24 in Leicester? Write a short answer in your RMarkdown document (max 200 words).

Question 304.1.2: Create a jittered points plot (see geom_jitter ) visualisation illustrating the same data shown in the boxplot and violin plot above.

Question 304.1.3: Create the code necessary to calculate a new column named perc_age_20_to_24 , which is the percentage of people aged 20 to 24 (i.e., u011 ) over total population per OA Total_Population , and create a boxplot visualising the distribution of the variable per 2011OAC supergroup.


How to use COUNTIFS and COUNTIF with multiple criteria in Excel

Below you will find a number of formula examples that demonstrate how to use the COUNTIFS and COUNTIF functions in Excel to evaluate multiple conditions.

How to count cells with multiple criteria (AND logic)

This scenario is the easiest one, since the COUNTIFS function in Excel is designed to count only those cells for which all of the specified conditions are TRUE. We call it the AND logic, because Excel's AND function works this way.

Formula 1. COUNTIFS formula with multiple criteria

Suppose you have a product list like shown in the screenshot below. You want to get a count of items that are in stock (value in column B is greater than 0) but have not been sold yet (value is column C is equal to 0).

The task can be accomplished by using this formula:

And the count is 2 ("Cherries" and "Lemons"):

Formula 2. COUNTIFS formula with the same criteria

When you want to count items with identical criteria, you still need to supply each criteria_range / criteria pair individually.

For example, here's the right formula to count items that have 0 both in column B and column C:

This COUNTIFS formula returns 1 because only "Grapes" have "0" value in both columns.

Using a simpler formula with a single criteria_range like COUNTIFS(B2:C7,"=0") would yield a different result - the total count of cells in the range B2:C7 containing a zero (which is 4 in this example).

How to count cells with multiple criteria (OR logic)

As you have seen in the above examples, counting cells that meet all of the specified criteria is easy because the COUNTIFS function is designed to work this way.

But what if you want to count cells for which en azından one of the specified conditions is TRUE, i.e. based on the OR logic? Overall, there are two ways to do this - by adding up several COUNTIF formulas or using a SUM COUNTIFS formula with an array constant.

Formula 1. Add up two or more COUNTIF or COUNITFS formulas

In the table below, supposing you want to count orders with the "Cancelled" and "Pending" status. To have it doen, you can simply write 2 regular Countif formulas and add up the results:

In case each of the functions is supposed to evaluate more than one condition, use COUNTIFS instead of COUNTIF. For example, to get the count of "Cancelled" and "Pending" orders for "Apples" use this formula:

=COUNTIFS($A$2:$A$11, "Apples", $C$2:$C$11,"Cancelled") + COUNTIFS($A$2:$A$11, "Apples", $C$2:$C$11,"Pending")

Formula 2. SUM COUNTIFS with an array constant

In situations when you have to evaluate a lot of criteria, the above approach is not the best way to go because your formula would grow too big in size. To perform the same calculations in a more compact formula, list all of your criteria in an array constant, and supply that array to the criteria argument of the COUNTIFS function. To get the total count, embed COUNTIFS inside the SUM function, like this:

In our sample table, to count orders with the status "Cancelled" or "Pending" or "In transit", the formula would go as follows:

In a similar manner, you can count cells based on two or more criteria_range / criteria pairs. For instance, to get the number of "Apples" orders that are "Cancelled" or "Pending" or "In transit", use this formula:

You can find a few more ways to count cells with OR logic in this tutorial: Excel COUNTIF and COUNTIFS with OR conditions.

How to count numbers between 2 specified numbers

By and large, COUNTIFS formulas for numbers fall into 2 categories - based on several conditions (explained in the above examples) and between the two values you specify. The latter can be accomplished in two ways - by using the COUNTIFS function or by subtracting one COUNTIF from another.

Formula 1. COUNTIFS to count cells between two numbers

To find out how many numbers between 5 and 10 (not including 5 and 10) are contained in cells C2 through C10, use this formula:

=COUNTIFS(C2:C10,">5", C2:C10,"<10")

To include 5 and 10 in the count, use the "greater than or equal to" and "less than or equal to" operators:

=COUNTIFS(B2:B10,">=5", B2:B10,"<=10")

Formula 2. COUNTIF formulas to count numbers between X and Y

The same result can be achieved by subtracting one Countif formula from another. The first one counts how many numbers are greater than the lower bound value (5 in this example). The second formula returns the count of numbers that are greater than the upper bound value (10 in this case). The difference between the first and second number is the result you are looking for.

  • =COUNTIF(C2:C10,">5")-COUNTIF(C2:C10,">=10") - counts how many numbers greater than 5 and less than 10 are in the range C2:C10. This formula will return the same count as shown in the screenshot above.
  • =COUNTIF(C2:C10, ">=5")-COUNTIF(C2:C10, ">10") - the formula counts how many numbers between 5 and 10 are in the range C2:C10, including 5 and 10.

How to use cell references in COUNTIFS formulas

When using logical operators such as ">", "<", "<=" or ">=" together with cell references in your Excel COUNTIFS formulas, remember to enclose the operator in "double quotes" and
add an ampersand (&) before a cell reference to construct a text string.

In a sample dataset below, let's count "Apples" orders with amount greater than $200. With criteria_range1 in cells A2:A11 and criteria_range2 in B2:B11, you can use this formula:

=COUNTIFS($A$2:$A$11, "Apples", $B$2:$B$11, ">200")

Or, you can input your criteria values in certain cells, say F1 and F2, and reference those cells in your formula:

Please notice the use of absolute cell references both in the criteria ve criteria_range arguments, which prevents the formula from being broken when copied to other cells.

For more information about the use of an ampersand in COUNTIF and COUNTIFS formulas, please see Excel COUNTIF - frequently asked questions.

How to use COUNTIFS with wildcard characters

In Excel COUNTIFS formulas, you can use the following wildcard characters:

  • Question mark (?) - matches any single character, use it to count cells starting and/or ending with certain characters.
  • Asterisk (*) - matches any sequence of characters, you use it to count cells containing a specified word or a character(s) as part of the cell's contents.

) before an asterisk or question mark.

Now let's see how you can use a wildcard char in real-life COUNTIFS formulas in Excel. Suppose, you have a list of projects in column A. You wish to know how many projects are already assigned to someone, i.e. have any name in column B. And because we are learning how to use the COUNTIFS function with multiple criteria, let's add a second condition - the Bitiş tarihi in column D should also be set.

Here is the formula that works a treat:

Please note, you cannot use a wildcard character in the 2 nd criteria because you have dates rather that text values in column D. That is why, you use the criteria that finds non-blank cells: "<>"&""

COUNTIFS and COUNTIF with multiple criteria for dates

The COUNTIFS and COUNTIF formulas you use for dates are very much similar to the above formulas for numbers.

Example 1. Count dates in a specific date range

To count the dates that fall in a certain date range, you can also use either a COUNTIFS formula with two criteria or a combination of two COUNTIF functions.

For example, the following formulas count the number of dates in cells C2 through C10 that fall between 1-Jun-2014 and 7-Jun-2014, inclusive:

=COUNTIFS(C2:C9, ">=6/1/2014", C2:C9, "<=6/7/2014")

=COUNTIF(C2:C9, ">=6/1/2014") - COUNTIF(C2:C9, ">6/7/2014")

Example 2. Count dates with multiple conditions

In the same manner, you can use a COUNTIFS formula to count the number of dates in different columns that meet 2 or more conditions. For instance, the below formula will find out how many products were purchased after the 20 th of May and delivered after the 1 st of June:

=COUNTIFS(C2:C9, ">5/1/2014", D2:D9, ">6/7/2014")

Example 3. Count dates with multiple conditions based on the current date

You can use Excel's TODAY() function in combination with COUNTIF to count dates based on the current date.

For example, the following COUNTIF formula with two ranges and two criteria will tell you how many products have already been purchased but not delivered yet.

This formula allows for many possible variations. For instance, you can tweak it to count how many products were purchased more than a week ago and are not delivered yet:

This is how you count cells with multiple criteria in Excel. I hope you will find these examples helpful. Anyway, I thank you for reading and hope to see you on our blog next week!


Case study: numerical integration

To conclude this chapter, I’ll develop a simple numerical integration tool using first-class functions. Each step in the development of the tool is driven by a desire to reduce duplication and to make the approach more general.

The idea behind numerical integration is simple: find the area under a curve by approximating the curve with simpler components. The two simplest approaches are the midpoint ve trapezoid rules. The midpoint rule approximates a curve with a rectangle. The trapezoid rule uses a trapezoid. Each takes the function we want to integrate, f , and a range of values, from a to b , to integrate over. For this example, I’ll try to integrate sin x from 0 to π . This is a good choice for testing because it has a simple answer: 2.

Neither of these functions gives a very good approximation. To make them more accurate using the idea that underlies calculus: we’ll break up the range into smaller pieces and integrate each piece using one of the simple rules. This is called composite integration. I’ll implement it using two new functions:

You’ll notice that there’s a lot of duplication between midpoint_composite() and trapezoid_composite() . Apart from the internal rule used to integrate over a range, they are basically the same. From these specific functions you can extract a more general composite integration function:

This function takes two functions as arguments: the function to integrate and the integration rule. We can now add even better rules for integrating over smaller ranges:

It turns out that the midpoint, trapezoid, Simpson, and Boole rules are all examples of a more general family called Newton-Cotes rules. (They are polynomials of increasing complexity.) We can use this common structure to write a function that can generate any general Newton-Cotes rule:

Mathematically, the next step in improving numerical integration is to move from a grid of evenly spaced points to a grid where the points are closer together near the end of the range, such as Gaussian quadrature. That’s beyond the scope of this case study, but you could implement it with similar techniques.

Exercises

Instead of creating individual functions (e.g., midpoint() , trapezoid() , simpson() , etc.), we could store them in a list. If we did that, how would that change the code? Can you create the list of functions from a list of coefficients for the Newton-Cotes formulae?

The trade-off between integration rules is that more complex rules are slower to compute, but need fewer pieces. For sin() in the range [0, π ], determine the number of pieces needed so that each rule will be equally accurate. Illustrate your results with a graph. How do they change for different functions? sin(1 / x^2) is particularly challenging.

© Hadley Wickham. Powered by jekyll, knitr, and pandoc. Source available on github.


Relation to Repeated Measures ANOVA

This all seems like it is a bit like a repeated-measures ANOVA. By putting the data in ‘long’ format, we can just combine out1 and out2 into a single DV, then predict the mean difference between the two with a categorical value:

This might be OK is some situations. But this is assuming that the two measures differ just by a constant. What if they have different scales, different variances, different directional relationships? Just like the t-test above, if we had a theory that could be used to combine these, it might be a better approach, but in this case, we are restricted in the inferences we can make. Notice that for each sub-model, the effects are in different directions, and so cancel out one another if we do it this way. We could sort of do this by predicting all the interactions too, but this begins to get very complicated such that a MANOVA might be preferred.


To go even further

As we have seen, these two improved R routines allow to:

  1. Perform t-tests and ANOVA on a small or large number of variables with only minor changes to the code. I basically only have to replace the variable names and the name of the test I want to use. It takes almost the same time to test one or several variables so it is quite an improvement compared to testing one variable at a time
  2. Share test results in a much proper and cleaner way. This is possible thanks to a graph showing the observations by group and the p-value of the appropriate test included on this graph. This is particularily important when communicating results to a wider audience or to people from diverse backgrounds.

However, like most of my R routines, these two pieces of code are still a work in progress. Below are some additional features I have been thinking of and which could be added in the future to make the process of comparing two or more groups even more optimal:

  • Add the possibility to select variables by their numbering in the dataframe. For the moment it is only possible to do it via their names. This will allow to automate the process even further because instead of typing all variable names one by one, we could simply type 4:25 (to test variables 4 to 25 for instance).
  • Add the possibility to choose a p-value adjustment method. Currently, raw p-values are displayed in the graphs and I manually adjust them afterwards.
  • When comparing more than two groups, it is only possible to apply an ANOVA or Kruskal-Wallis test at the moment. A major improvement would be to add the possibility to perform a repeated measures ANOVA (i.e., an ANOVA when the samples are dependent). It is currently already possible to do a t-test with two paired samples, but it is not yet possible to do the same with more than two groups.
  • Another less important (yet still nice) feature when comparing more than 2 groups would be to automatically apply post-hoc tests only in the case where the null hypothesis of the ANOVA or Kruskal-Wallis test is rejected (so when there is at least one group different from the others, because if the null hypothesis of equal groups is not rejected we do not apply a post-hoc test). At the present time, I manually add or remove the code that displays the p-values of post-hoc tests depending on the global p-value of the ANOVA or Kruskal-Wallis test.

I will try to add these features in the future, or I would be glad to help if the author of the package needs help in including these features (I hope he will see this article!).

Last but not least, the following packages may be of interest to some readers:

If you want to report statistical results on a graph, I advise you to check the package and in particular the ggbetweenstats() function. This function allows to compare a continuous variable across multiple groups or conditions. Note that many different statistical results are displayed on the graph, not only the name of the test and the p-değer. However, it is still very convenient to be able to include tests results on a graph in order to combine the advantages of a visualization and a sound statistical analysis.

package also provides a nice way to compare groups. It comes with a really complete Shiny app, available with:

Thanks for reading. I hope this article will help you to perform t-tests and ANOVA for multiple variables at once and make the results more easily readable and interpretable by nonscientists. Learn more about the t-test to compare two samples, or the ANOVA to compare 3 samples or more.

As always, if you have a question or a suggestion related to the topic covered in this article, please add it as a comment so other readers can benefit from the discussion.


ISLR Linear Regression Exercises

Currently working on the exercises from chapter 3 in An Introduction to Statistical Learning with Applications in R.

The small p values for TV and radio correspond to the low probability of observing the t statistics we see by chance. Hence TV and radio yapmak have a relationship with the response, sales. However, newspaper’s large p-value corresponds to an unlikely relationship with sales or a very weak one.

The difference between the KNN classifier and KNN regression methods is KNN classifiers results in a qualitative classification of (X) into a specific group while KNN regression methods are used to non parametrically fit many valued observations ( (f(x)) ).

  • bir. ben. False. ii. False. iii. False. iv. iv.True. (X_5) dominates for high enough GPA, thus meaning on average males make more for high enough GPA.
  • b. (Y=50+20cdot(4.0)+0.07cdot(110)+35+0.01(4.0cdot110)-10(4.0) = 137.1) thousand $
  • c. False. There can be an interaction effect it’s just not a strong effect. Need to look at the associated p-value to determine whether the GPA*IQ interaction term is significant or not.

The cubic regression may give the tighter fit on the training data (i.e. lower RSS) but there’s no telling whether this is over fitting to the data or not. This scenario is more likely with a larger epsilon.

The linear regression will certainly give a better fit to test data than the cubic regression as it expects data pulled from a linear relation while the cubic regression will not only expect a different relation but will also have the possibility of being incorrectly fit to the noise in the training set.

In most cases one would expect the cubic regression to fare better as it has a more flexible fit however, if the actual relation is linear than one might expect a better fit from the linear.

This question involves the use of simple linear regression on the Auto data set.

Use the lm() function to perform a simple linear regression with mpg as the response and horsepower as the predictor. Use the summary() function to print the results. Comment on the output.

ben. Is there a relationship between the predictor and the response?

Yes, there is a relationship between the predictor and the response as determined by testing the null hypothesis of all regression coefficients to zero. Since the F-statistic is much larger than 1 and has a correspondingly small p-value we can confirm the likelihood that the null hypothesis is false and that there is a statistically significant relationship between mpg and horsepower.

ii. How strong is the relationship between the predictor and the response?

To calculate the residual error with respect to the response we take the mean of mpg, 23.446, and the RSE of the fit, 4.906 which indicates a (4.906/23.446 *100 = 20.92\%) percentage error. The (R^2=0.6059) indicates that (60.59\%) of the variance of mpg is explained by horsepower.

iii. Is the relationship between the predictor and the response positive or negative?

Looking at the sign of the regression coefficient of horsepower,we see that the relationship between mpg and horsepower is negative.

iv. What is the predicted mpg associated with a horsepower of 98? What are the associated 95 % confidence and prediction intervals?

fitlwrupr
124.4670823.9730824.96108
fitlwrupr
124.4670814.8094034.12476

Reminder: What are confidence and prediction intervals?

We use a confidence interval to quantify the uncertainty surrounding the average sales over a large number of cities. For example, given that ( ext<) >100,000 ( is spent on TV advertising and $20,000) is spent on radio advertising in each city, the (95\%) confidence interval is ([10,985, 11,528]) . We interpret this to mean that (95\%) of intervals of this form will contain the true value of (f(X)) On the other hand, a prediction interval can be used to quantify the uncertainty surrounding sales for a particular city. Given that (100,000) is spent on TV advertising and (20,000) is spent on radio advertising in that city the (95\%) prediction interval is ([7,930, 14,580]) . We interpret this to mean that (95\%) of intervals of this form will contain the true value of Y for this city.

Plot the response and the predictor. Use the abline() function to display the least squares regression line.

Use the plot() function to produce diagnostic plots of the least squares regression fit. Comment on any problems you see with the fit.

Plotting the residuals indicates that mpg most likely has a non-linear relationship with horsepower. It does not appear that there are any high-leverage (unusual value of x) points.

This question involves the use of multiple linear regression on the Auto data set.

Produce a scatterplot matrix which includes all of the variables in the data set.

Compute the matrix of correlations between the variables using the function cor(). You will need to exclude the name variable, which is qualitative.

mpgcylindersdisplacementhorsepowerweightaccelerationyearorigin
mpg 1.0000000-0.7776175-0.8051269-0.7784268-0.8322442 0.4233285 0.5805410 0.5652088
cylinders-0.7776175 1.0000000 0.9508233 0.8429834 0.8975273-0.5046834-0.3456474-0.5689316
displacement-0.8051269 0.9508233 1.0000000 0.8972570 0.9329944-0.5438005-0.3698552-0.6145351
horsepower-0.7784268 0.8429834 0.8972570 1.0000000 0.8645377-0.6891955-0.4163615-0.4551715
weight-0.8322442 0.8975273 0.9329944 0.8645377 1.0000000-0.4168392-0.3091199-0.5850054
acceleration 0.4233285-0.5046834-0.5438005-0.6891955-0.4168392 1.0000000 0.2903161 0.2127458
year 0.5805410-0.3456474-0.3698552-0.4163615-0.3091199 0.2903161 1.0000000 0.1815277
origin 0.5652088-0.5689316-0.6145351-0.4551715-0.5850054 0.2127458 0.1815277 1.0000000

Use the lm() function to perform a multiple linear regression with mpg as the response and all other variables except name as the predictors. Use the summary() function to print the results. Comment on the output.

ben. Is there a relationship between the predictors and the response?

Yes, there is a relationship between the predictor and the response as determined by testing the null hypothesis of all regression coefficients to zero. Since the F-statistic is much larger than 1 and has a correspondingly small p-value we can confirm the likelihood that the null hypothesis is false and that there is a statistically significant relationship between the variables and mpg.

ii. Which predictors appear to have a statistically significant relationship to the response?

Weight, year, origin and possibly displacement.

iii. What does the coefficient for the year variable suggest?

The regression coefficient for year, (0.7508) , suggests that for every one year, mpg increases by the coefficient. In other words, cars become more fuel efficient every year by almost 1 mpg / year.

Use the plot() function to produce diagnostic plots of the linear regression fit. Comment on any problems you see with the fit. Do the residual plots suggest any unusually large outliers? Does the leverage plot identify any observations with unusually high leverage?

The residuals plot suggests that there could be a non-linearity to the data and that there could be interaction terms. There are a handful of points with slightly large ( (>10) ) residuals. Though it is difficult to identify whether this is a 'large' residual. To discern this we can plot the studentized residuals, computed by dividing each residual (e_i) by its estimated standard error. Typical values are between -3 and 3. Since we have a couple points above the 3 threshold we can say that they are indeed outliers. Point 14 has a high leverage but a low residual.

Use the * and : symbols to fit linear regression models with interaction effects. Do any interactions appear to be statistically significant?

Var1Var2Freq
1mpgmpg1
10cylinderscylinders1
11displacement cylinders 0.950823300827783
18cylinders displacement 0.950823300827783
19displacementdisplacement1
21weight displacement 0.932994404089011
28horsepowerhorsepower1
35displacement weight 0.932994404089011
37weightweight1
46accelerationacceleration1
55yearyear1
64originorigin1

Using the correlation matrix, I was able to find the pairs of variables that were correlated the most strongly. Having done this, I found that the displacement and weight appear to have a statistically significant interaction affect.

Try a few different transformations of the variables, such as (log(X)) , (sqrt) , (X^2) . Comment on your findings.

Looking at the residuals vs fitted there seems to be a strong heteroscedasticity in the data. To alleviate this we can try transforming the response using a concave function!

This question should be answered using the Carseats data

Fit a multiple regression model to predict Sales using Price,Urban, and US.

Provide an interpretation of each coefficient in the model. Be careful—some of the variables in the model are qualitative!

Price has a negative correlation with Sales, higher price = less sales. UrbanYes the linear regressions does not suggest that selling the car specifically in an urban area affects sales. USYes If the store is in the US, it is associated with an increase in sales.

Write out the model in equation form, being careful to handle the qualitative variables properly.

For which of the predictors can you reject the null hypothesis (H_0:eta_j=0) ?

On the basis of your response to the previous question, fit a smaller model that only uses the predictors for which there is evidence of association with the outcome.

How well do the models in (a) and (e) fit the data?

Not very well. They have low (R^2) values. Adding UrbanYes does little to improve the fit of the model.

Using the model from (e), obtain 95% confidence intervals for the coefficient(s).

Is there evidence of outliers or high leverage observations in the model from (e)?

Generated with Pelican. Layout done with Skeleton. Icons are Font Awesome. Hosted on S3.