لینک امروز:

اینم یه لینک مخصوص ریاضی های امسال و تجربی های سال دیگه: احتمالا برای درس آمارتون نیاز به داده دارید. اگر قرار نیست داده ها را خودتان تهیه کرده باشید و می‌تونید از داده های بلاد کفر استفاده کنید uci پیشنهاد خوبیه. این پایگاه داده ‌ای است که معمولا دانشجویان ارشد و یا دکتری و یا دیگر پژوهشگران، برای استخراج نتایج و دسته بندی اطلاعات جهت کارهای پژوهشی خود استفاده می کنند؛ مثلا برای تشخیص عنبیه یا دست خط و یا  پژوهش‌های داده‌کاوی و ... که معمولا نیاز به دسته بندی اطلاعات است استفاده می شود. شما هم می‌توانید داده مورد نظر خودتان را دانلود کنید و تنها ستون های خاصی را در نظر گرفته و بر روی آن کارهای آماری انجام دهید.

در صفحه نخست، لیستی از داده‌های محبوب و همچنین آخرین مجموعه داده‌های اضافه شده و آخرین اخبار را مشاهده کنید. برای اینکه تمام مجموعه داده ها راببینید روی گزینه view all data set کلیک کنید.

در صفحه باز شده، جدولی می بینید که نام مجموعه داده (دیتاست) و نوع داده‌ها،نوع متغیرها، تعداد نمونه‌ها، تعداد ویژگی‌ها و سال جمع آوری این داده ها گذاشته شده است. همچنین در سمت چپ این صفحه، گزینه‌هایی وجود دارد که می‌توانید داده‌ها را محدود کنید. مثلا من توی این شکل گفته‌ام که فقط دیتاست‌هایی را نشان دهد بگویید دیتاست‌هایی را به شما نشان دهد که مربوط به هیچ یک از حوزه های مهندسی،علوم طبیعی، بازی، تجارت و ... نباشه، کمتر از 10 تا ویژگی داشته باشد و تعداد نمونه هاش کمتر از 1000 و بیش از 100 باشه. با این ویژگی‌ها، 6 دیتاست نشان داده شده است که من از بین اینها دیتاست پنجم یعنی Teaching Assistant Evaluation را برای توضیح انتخاب می‌کنم. این دیتاست، به ارزیابی کارایی دستیار استاد (استاد حل تمرین، دانشجویی که توی دانشگاه به استاد در فرآیند تدریس و یا تصحیح برگه‌ها و یا گرفتن پروژه‌ها کمک می‌کنه) انتخاب می‌کنم  و روی آن کلیک می‌کنم. در صفحه باز شده، دو لینک وجود دارد، یک لینک Data Set Description که به توصیف این دیتاست پرداخته، که مهم ترین توصیف این است که هر کدام از این صفت ها چی هستند و چه جوری مقداردهی شده اند. برای مثال:

7. Attribute Information:
  
   1. Whether of not the TA is a native English speaker (binary)
      1=English speaker, 2=non-English speaker
   2. Course instructor (categorical, 25 categories)
   3. Course (categorical, 26 categories)
   4. Summer or regular semester (binary) 1=Summer, 2=Regular
   5. Class size (numerical)
   6. Class attribute (categorical) 1=Low, 2=Medium, 3=High

این در مورد ویژگی‌های این دیتاست توضیح داده که مثلا ویژگی اول این بوده که آیا زبان مادری دستیار استاد انگلیسی بوده یا خیر ( احتمالا دانشجویان، انگلیسی زبان بوده اند و این فاکتور مهمی بوده).ویژگی دوم این است که رشته طرف چی بوده (که 25 تا رشته ثبت شده) و ....

لینک اول یعنی Data Folder، لینکی به صفحه‌ای است که دارای لینک‌هایی به اصل داده‌هاست که می‌تونید روی هر کدوم کلیک کنید و باز کنید (البته اگر حجمش زیاد نباشه، توی این موردی که من انتخاب کردم چون تعداد نمونه‌ها و تعداد ویژگی‌ها کمه، حجم کمه). برای کار کردن باهاش و دادن اون به نرم افزارهایی مثل اکسل و یا نرم افزارهای پیشرفته‌تری مانند weka یا rapid minder، روی فایل راست کلیک کرده و اون را ذخیره کنید. این نرم‌افزارها می‌تونند به صورت خودکار، معیارهای آماری را حساب کنند و حتی اونها را دسته بندی کنند.

اگر مایل بودید که با این نرم افزارها کار کنید بگویید تا من ادامه توضیحات رو بذارم و گرنه بیخود تایپ نکنم.