Data Science with Python

מק"ט: #7717 | משך קורס: 210 שעות אק'

data scientist למה צריך? בעולם בו כמויות המידע הזורמות לארגון הולכות ומתעצמות, גובר הצורך למצות את היתרון העסקי מחקר הנתונים והפיכתם לתובנות עסקיות.
מדען הנתונים מתמחה בניתוח נתונים, לשם יצירת יתרון עסקי תחרותי לארגון. לצורך כך הוא נדרש לבקיאות במגוון כלי אנליזה, מודלים סטטיסטיים, אלגוריתמים של למידת מכונה, כריית נתונים וחיזוי.
כחלק מעבודתו, מדען הנתונים נדרש להתמודד עם מגוון רחב של מקורות מידע, מידע גולמי, נתונים מובנים ושאינם מובנים. ביכולתו לחשוף תבניות ודפוסי התנהגות בעלות ערך עסקי לארגון ולתמוך בתהליך קבלת ההחלטות של המנהלים בארגון.
מדען הנתונים מתמודד עם מגוון דרישות ושאלות עסקיות כגון: מהי רמת יעילותו של הארגון? כיצד ניתן לחזות סיכון ותקלות? כיצד ניתן לשמר לקוחות ולחזות נטישת לקוח? מהי רמת ההשפעה של גורמים שונים על הצלחתו של הארגון? ועוד. 

לפרטים נוספים, מלא את פרטיך או התקשר 03-7100779
*שדות חובה
PDF version

אודות

קורס data scientist זה מכין את בוגריו לקראת השתלבות בעולם ה-Data Science, ומקנה ידע נרחב. כמו כן, קורס זה שם דגש רב על הכנה מעשית, ומשלב תרגולים רבים. במהלך הקורס ילמדו הנושאים הבאים:

Preparatory - מכינה
חלקו הראשון של הקורס מוקדש ליישור קו עם בסיסי התכנים אשר ילמדו במהלכו.
במהלך מודול זה :

  • יכירו התלמידים את יסודות הפיתוח בסביבת Python (מושגי תכנות בסיסיים כגון מבני בקרה, פונקציות, מבני נתונים, ועוד) ויתרגלו כתיבת תוכניות באופן אינטנסיבי.
  • יקבלו התלמידים בסיס מתמטי וסטטיסטי אשר יאפשר להם השתלבות תקינה בחלקיו המתקדמים של הקורס.
  • בסיום המכינה תתקיים בחינה מסכמת

Data Analysis and Visualization with Python
עבודתו של מדען הנתונים מתחילה פעמים רבות, אם לא תמיד, בהכנת המידע לקראת בניית מודל החיזוי (עיבוד מקדים של ה-Dataset, ניקוי נתונים לא תקינים, בחירת ערכים וכד').
Python נחשבת לאחת שפות התכנות היעילות ביותר לניתוח נתונים. באמצעות ספריות ייעודיות, השפה מספקת מבני נתונים מהירים, גמישים ומובנים שנועדו להפוך את העבודה עם נתונים לקלה ואינטואיטיבית.
מודול זה יספק ערכת כלים מקיפה לעבודה עם נתונים, כולל טכניקות לקריאה וכתיבה של קבצים מגוונים, תחקור נתונים, והצגה גרפית.

Machine Learning

חלקו המרכזי של הקורס. עולם הידע ב- Machine Learning עוסק באלגוריתמים ושיטות לבניית מערכות לומדות, שיכולות להשתמש במידע שנאסף על ידי הארגון, על מנת להפיק באופן אוטומטי ידע ותובנות חדשים.
שליטה ב- Machine Learning, מייצרת לארגונים הזדמנויות חדשות ומרגשות להשיג יתרון תחרותי, על ידי תכנון אלגוריתמים שיסייעו בקבלת החלטות ארגונית טובה יותר. ב- Machine Learning, אופן השימוש במידע הארגוני הוא עמוק יותר, שיטתי יותר ומתבסס על מניפולציות מתמטיות מורכבות.

מודול זה כולל היכרות עם מתודולוגית העבודה ב- Machine Learning, ועם השיטות והאלגוריתמים המרכזיים המשמשים כחלק ממתודולוגיה זו. חלק זה ילווה בתרגול ובדוגמאות רבות, תוך שימוש ב- Python, שפה שימושית ל- Machine Learning. בנוסף במהלך הקורס נדבר על שיקולים ודגשים בהטמעת פתרון בסביבה טכנולוגית ובעבודה עם נפחי מידע גדולים ובצורות שונות.

פרויקט

על מנת ליצור חווית למידה אפקטיבית והכנה מקיפה לעולם האמיתי, הסטודנטים יעבדו על פרויקט מקיף. הפרויקט יבוצע בזוגות, תוך תרגול פתירת בעיית Machine Learning מקצה לקצה.

הפרויקט בנוי מהשלבים הבאים :

1. בחירת ובחינת בעיה עסקית ומציאת דטה סט מתאים
**השלבים הבאים כרוכים בכתיבת קוד
2. חקר נתונים ראשוני
3. הכנת הנתונים לתהליכי Machine Learning
4. בניית מודלי Machine Learning
5. ולידציה על איכות המודלים

SQL For Data Scientists

מעבר לשפת ה Python אשר מהווה חלק מרכזי בעבודתו של מדען הנתונים, בתחקור מאגרים רלציוניים (לדוגמה - כחלק מהכנתם למודלים חיזויים) נעשה שימוש נרחב בשפת ה SQL. מודול זה, אשר פותח ע"י רם קדם, מתמקד בשאילתות מורכבות, ומורכב כולו מבעיות SQL מתקדמות בעולם האמיתי. החומרים של המודול מבוססים על עשור של ניסיון בעבודה עם מסדי נתונים שונים, שאלות מאתגרות מראיונות עבודה, ובעיות SQL מורכבות רבות. במהלך המודול תלמדו "דרך הידיים" SQL מתקדם. מודול זה יוצא מתוך הנחה כי משתתפיו מגיעים עם רקע בסיסי מקדים ב SQL.


Introduction to Big Data and Spark

מודול זה נועד לחבר את משתתפיו הקורס לעולם ה - Big Data ולספק רקע תאורטי ומעשי אודות השימוש בטכנולוגיות הנפוצות, בדגש על Hadoop. במהלך המודול תינתן סקירה אודות מרכיבי ה - Eco System המרכזיים, וכן יוקדשו מספר שיעורי מבוא ל Spark - פלטפורמה נפוצה ורחבת היקף בתחום ניתוח המידע.

ליווי מקצועי
קורס ייחודי זה נבנה בשיתוף פעולה של צוות מקצועי המורכב מטובי המומחים בתחום Data Science, בעלי ניסיון מקצועי רב שנים בהדרכה.
רם קדם: עוסק בעולם ה-Databases וניתוח הנתונים מעל לעשור. בעל ניסיון רב בטכנולוגיות שונות, ובהובלת פרויקטים מגוונים. במקביל לעבודתו בשטח, רם מעביר קורסים, הרצאות וסדנאות רבות, מנהל אתר לימודי בתחום מסדי הנתונים, וכותב ספרות בתחום ה-Data.
שחר כהן ואורן רזון: co-founders של חברת YellowRoad, בעלי ניסיון של מעל לעשור בבניית מערכות machine learning בתעשייה. חברת YellowRoad הינה ספקית שירותי End-to-End Machine Learning. משלב ייזום הפרויקט, בניית האלגוריתם ובניית הטכנולוגיה אצל הלקוח 

קהל יעד

קהל יעד

  • בעלי ניסיון מעשי בעולמות ה -Data (אחזור, עיבוד וניתוח נתונים), כגון: אנשי BI, אנליסטים, כותבי קוד, ראשי צוותים, מנהלי פיתוח, DBAs
  • בעלי ידע בסיסי בשפת ה-SQL
  • בעלי רקע בכתיבת קוד - יש לציין, זהו אינו קורס תכנות, אלא קורס המלמד כיצד ניתן ליישם Machine Learning באמצעות Python.
  • בעלי ידע סטטיסטי בסיסי ברמת קורס מבוא לסטטיסטיקה 

 

תנאי קדם

  • ראיון אישי / ייעוץ מקצועית
  • מבדק הערכת ידע  

 

זכאות לתעודת סיום

זכאות לתעודת גמר, מטעם ג'ון ברייס הדרכה, מותנית:

  • בנוכחות ב- 80% מן המפגשים לפחות
  • בהגשת תוצרי כל הפרויקטים לאורך הקורס

משך

  • 210 שעות (160 שעות לימוד פרונטליות + 50 עבודה עצמית בבית)
  • לימודי ערב מ- 17:30 עד 21:45, שני מפגשים שבועיים
  • הלימודים אינם מתקיימים בחגים ומועדים

נושאים

Preparatory (40)

  • Working with data types
  • Slicers
  • Control structures
  • Understanding Python’s Data Structures
  • Implementing Functions
  • Error Handling
  • Introduction to OOP

Python Programming

  • Basic statistics for ML

Statistics

Data Analysis and with Python (30 Hours)

  • NumPy Basics
  • Generating Data Using NumPy
  • Subsetting Numpy Arrays
  • Performing Calculations on a Numpy Array
  • Filtering Data
  • Sort a NumPy Array
  • Applying Functions
  • Aggregate Functions
  • Set Operations
  • Reshaping and Flattening Multidimensional arrays
  • NumPy's Structured Arrays
  • Introduction to SciPy

Data Analysis using

NumPy

  • Basic Select Operations
  • Filtering & Sorting
  • Applying Scalar Functions
  • Aggregative Functions
  • SET Operations
  • JOIN Opearions
  • Schema Modifications
  • Pandas Indexes
  • Pivot operations
  • Input / Output Operations
  • Working with Analytic Functions

Data Analysis using

Pandas

  • Types of matplotlib charts
  • Basic customizations
  • Advanced customizations
  • 3d graphing

Data Visualization using

Matplotlib

Machine Learning(60 Hours)

  • Initial concepts and business motivation
  • Reviewing machine learning problems and basic components
  • CRISP-DM methodology - the typical work cycle of the Machine Learning project
  • Basic familiarity with the work environment in Python

Introduction

  • Data Types
  • Correlations
  • Feature Distribution
  • Outliers Detection

Data Understanding

  • Data Scaling and Normalization
  • Feature Selection
  • Feature Extraction

Data Preparation

  • Generalization
  • Bias
  • Variance
  • Classification
  • Regression

Supervised Learning

  • train-test-validation
  • cross validation
  • over\under-fitting Confusion Matrix
  • Accuracy
  • ROC Curve
  • Lift Charts

Model evaluation

  • K-NN
  • Decision Trees
  • Linear Regression
  • Logistic Regression
  • SVM
  • Naïve Bayes

Basic Supervised Learning Algorithms

  • Ensemble Methods: Random Forest, Bagging, etc.
  • Deep Learning
  • NLP

Advanced Methods

  • K-Means and GMM
  • Association Rules
  • Hierarchical Clustering
  • Evaluating Unsupervised methods

Unsupervised Learning

  • Machine Learning Flow in Production
  • Common Technology Stack

Deployment

  • ML final project

ML final project

SQL For Data Scientists

(15 Hours)

This module, unique of its kind in Israel, focuses on complex queries, and entirely composed of advanced “real-world” problems and solutions.

This training is based on a decade of experience working with various databases, challenging job interviews questions, and many complex SQL problems. In this course, students learn many different practical applications and “real-world” problems.

Through understanding of the problems this module presents, you will learn many techniques, such as:

  • Complex scalar functions
  • Advanced techniques for filtering and sorting values
  • Working with analytical functions
  • Advanced use of Group Functions
  • Working with complex Sub-Queries
  • Use of CTE and recursive CTE
  • Advanced tables integration using JOIN, UNION and CROSS APPLY
  • XML techniques for solving complex problems
  • Working with PIVOT and UNPIVOT

Introduction to Big Data and Spark(15 Hours)

  • Big data basic concepts
  • Hadoop basics
  • Basic HDFS concepts
  • Working with the HDFS
  • Yarn components
  • MapReduce workflow                  

 

Introduction to Big Data

 

  • Basics
  • RDD Operations
  • Spark SQL and DataFrames
  • Spark ML

Introduction to Apache Spark (PySpark)

 

 

תגיות