Data Science with Python

מק"ט: #7717 | משך קורס: 170 שעות אק'

בעולם בו כמויות המידע הזורמות לארגון ונשמרות במאגרי הנתונים, הולך ומתעצם, גובר הצורך למצות את היתרון העסקי מחקר הנתונים והפיכתם לתובנות עסקיות.
מדען הנתונים מתמחה בניתוח נתונים, לשם יצירת יתרון עסקי תחרותי לארגון. לצורך כך הוא נדרש לבקיאות במגוון כלי אנליזה, מודלים סטטיסטיים, אלגוריתמים של למידת נכונה, כריית נתונים וחיזוי.
כחלק מעבודתו, מדען הנתונים נדרש להתמודד עם מגוון רחב של מקורות מידע, מידע גולמי, נתונים מובנים ושאינם מובנים. ביכולתו לחשוף תבניות ודפוסי התנהגות בעלות ערך עסקי לארגון ולתמוך בתהליך קבלת ההחלטות של המנהלים בארגון.
מדען הנתונים מתמודד עם מגוון דרישות ושאלות עסקיות כגון: מהי רמת יעילותו של הארגון? כיצד ניתן לחזות סיכון ותקלות? כיצד ניתן לשמר לקוחות ולחזות נטישת לקוח? מהי רמת ההשפעה של גורמים שונים על הצלחתו של הארגון? ועוד. קורס זה מכין את בוגריו לקראת השתלבות בעולם ה Data Science, ומקנה ידע נרחב. כמו כן, קורס זה שם דגש רב על הכנה מעשית, ומשלב תרגולים רבים.

לפרטים נוספים, מלא את פרטיך או התקשר 03-7100779
*שדות חובה
PDF version

אודות

במהלך הקורס ילמדו הנושאים הבאים:

 

Data Analysis with Python
Python נחשבת לאחת שפות התכנות היעילות ביותר לניתוח נתונים. באמצעות ספריות ייעודיות, השפה מספקת מבני נתונים מהירים, גמישים ומובנים שנועדו להפוך את העבודה עם נתונים לקלה ואינטואיטיבית.
מודול זה יציג את היסודות של סביבת ה-Python, כולל מושגי תכנות בסיסיים כגון מבני בקרה, פונקציות ומבני נתונים. בחלקו העיקרי, מודול זה יספק ערכת כלים מקיפה לעבודה עם נתונים, כולל טכניקות לקריאה וכתיבה של קבצים מגוונים, תחקור נתונים, והצגה גרפית.

Machine Learning
חלקו המרכזי של הקורס. עולם הידע ב- Machine Learning עוסק באלגוריתמים ושיטות לבניית מערכות לומדות, שיכולות להשתמש במידע שנאסף על ידי הארגון, על מנת להפיק באופן אוטומטי ידע ותובנות חדשים.
שליטה ב- Machine Learning, מייצרת לארגונים הזדמנויות חדשות ומרגשות להשיג יתרון תחרותי, על ידי תכנון אלגוריתמים שיסייעו בקבלת החלטות ארגונית טובה יותר. ב- Machine Learning, אופן השימוש במידע הארגוני הוא עמוק יותר, שיטתי יותר ומתבסס על מניפולציות מתמטיות מורכבות.

מודול זה כולל היכרות עם מתודולוגית העבודה ב- Machine Learning, ועם השיטות והאלגוריתמים המרכזיים המשמשים כחלק ממתודולוגית זו. חלק זה ילווה בתרגול ובדוגמאות רבות, תוך שימוש ב- Python, שפה שימושית ל- Machine Learning. בנוסף במהלך הקורס נדבר על שיקולים ודגשים בהטמעת פתרון בסביבה טכנולוגית ובעבודה עם נפחי מידע גדולים ובצורות שונות.

פרויקט
על מנת ליצור חווית למידה אפקטיבית והכנה מקיפה לעולם האמיתי, הסטודנטים יעבדו על פרויקט מקיף. הפרויקט יבוצע בזוגות, תוך תרגול פתירת בעיית Machine Learning מקצה לקצה.

הפרויקט בנוי מהשלבים הבאים:
1. בחירת ובחינת בעיה עסקית ומציאת דטה סט מתאים
**השלבים הבאים כרוכים בכתיבת קוד
2. חקר נתונים ראשוני
3. הכנת הנתונים לתהליכי Machine Learning
4. בניית מודלי Machine Learning
5. ולידציה על איכות המודלים

Advanced SQL – Practical Techniques and Use-Cases

מעבר לשפת ה Python אשר מהווה חלק מרכזי בעבודתו של מדען הנתונים, בתחקורי מאגרים רציונליים (לדוגמה - כחלק מהכנתם למודלים חיזויים) נעשה שימוש נרחב בשפת ה-SQL. מודול זה, אשר פותח ע"י רם קדם, מתמקד בשאילתות מורכבות, ומורכב כולו מבעיות SQL מתקדמות בעולם האמיתי. החומרים של המודול מבוססים על עשור של ניסיון בעבודה עם מסדי נתונים שונים, שאלות מאתגרות מראיונות עבודה, ובעיות SQL מורכבות רבות. במהלך המודול תלמדו "דרך הידיים" SQL מתקדם. מודול זה יוצא מתוך הנחה כי משתתפיו מגיעים עם רקע בסיסי מקדים ב SQL.

Introduction to Big Data and Spark
מודול זה נועד לחבר את משתתפיו הקורס לעולם ה - Big Data ולספק רקע תאורטי ומעשי אודות השימוש בטכנולוגיות הנפוצות, בדגש על Hadoop. במהלך המודול תינתן סקירה אודות מרכיבי ה - Eco System המרכזיים, וכן יוקדשו מספר שיעורי מבוא ל Spark - פלטפורמה נפוצה ורחבת היקף בתחום ניתוח המידע.  

 

ליווי מקצועי
קורס ייחודי זה נבנה בשיתוף פעולה של צוות מקצועי המורכב מטובי המומחים בתחום Data Science, בעלי ניסיון מקצועי רב שנים בהדרכה.

רם קדם: עוסק בעולם ה-Databases וניתוח הנתונים מעל לעשור. בעל ניסיון רב בטכנולוגיות שונות, ובהובלת פרויקטים מגוונים. במקביל לעבודתו בשטח, רם מעביר קורסים, הרצאות וסדנאות רבות, מנהל אתר לימודי בתחום מסדי הנתונים, וכותב ספרות בתחום ה-Data.
שחר כהן ואורן רזון: co-founders של חברת YellowRoad, בעלי ניסיון של מעל לעשור בבניית מערכות machine learning בתעשייה. חברת YellowRoad הינה ספקית שירותי End-to-End Machine Learning. משלב ייזום הפרויקט, בניית האלגוריתם ובניית הטכנולוגיה אצל הלקוח.

קהל יעד

קהל יעד

  • בעלי ניסיון מעשי בעולמות ה -Data (אחזור, עיבוד וניתוח נתונים), כגון: אנשי BI, אנליסטים, כותבי קוד, ראשי צוותים, מנהלי פיתוח, DBAs
  • בעלי ידע בסיסי בשפת ה-SQL
  • בעלי רקע בכתיבת קוד - יש לציין, זהו אינו קורס תכנות, אלא קורס המלמד כיצד ניתן ליישם Machine Learning באמצעות Python. בתחילת המודול הראשון יוקצו מספר שעות ליישור קו עם השפה, שאר הקורס יוצא מתוך הנחה שמשתתפיו מגיעים עם רקע בתכנות
  • ידע סטטיסטי בסיסי ברמת קורס מבוא לסטטיסטיקה 

 

תנאי קדם

  • ראיון אישי / ייעוץ להכוונה מקצועית
  • בעלי רקע בכתיבת קוד
  • ניסיון בפיתוח בסיסי בשפת ה – SQL
  • בעלי ניסיון מעשי בעולמות ה -Data (אחזור, עיבוד וניתוח נתונים)  

 

זכאות לתעודת סיום

זכאות לתעודת גמר, מטעם ג'ון ברייס הדרכה, מותנית:

  • בנוכחות ב- 80% מן המפגשים לפחות
  • בהגשת תוצרי כל הפרויקטים לאורך הקורס

משך

  • 170 שעות (120 שעות לימוד פרונטליות + 50 עבודה עצמית בבית)
  • לימודי ערב מ- 17:30 עד 21:45, שני מפגשים שבועיים
  • הלימודים אינם מתקיימים בחגים ומועדים

נושאים

Data Analysis with Python (30 Hours)

  • Working with data types
  • Slicers
  • Control structures
  • Understanding Python’s Data Structures
  • Implementing Functions

Python Crash Course

  • Understanding one-dimensional labeled arrays
  • Create a Series from Python objects
  • Using the read_csv() method
  • Attributes
  • Methods
  • Arguments and Parameters
  • Extracting Series values

Pandas - Series

  • Understanding two-dimensional data structures
  • Selecting columns from a DataFrame
  • Adding new columns to a DataFrame
  • Working with Nulls
  • Sorting a DataFrame
  • Filter a DataFrame - conditions and methods
  • Retrieving rows by Index position
  • Delete rows or columns from a DataFrame
  • Rename Index labels or Columns in a DataFrame
  • Common String methods

Pandas – DataFrames

  • Understanding multiIndexes in Pandas
  • Creating a multiIndex
  • Extracting rows from a multiIndex
  • Common methods

Using MultiIndex

  • Basic operations
  • Retrieving groups
  • Common methods
  • Group by multiple columns
  • Iterating through groups

Group By

  • Join operations between DataFrame objects
  • Combining together Pandas objects

Joining and Concatenating Data

  • Understanding Python’s datetime module
  • Pandas Timestamp and DateTimeIndex objects
  • Pandas DateOffset and TimeDelta objects
  • Common methods

Working with Dates

  • Understanding the axis of a Panel Object
  • Common methods and attributes
  • Extracting data

Python Pandas – Panels

  • Object conversions
  • Export DataFrame to csv
  • Importing and exporting Excel files

Pandas I/O API

  • Using the .plot() method
  • Bar Graphs
  • Pie Charts
  • Histograms

Visualization

Machine Learning (60 Hours)

  • Initial concepts and business motivation
  • Reviewing machine learning problems and basic components
  • CRISP-DM methodology - the typical work cycle of the Machine Learning project
  • Basic familiarity with the work environment in Python

Introduction

  • Data Types
  • Correlations
  • Feature Distribution
  • Outliers Detection

Data Understanding

  • Data Scaling and Normalization
  • Feature Selection
  • Feature Extraction

Data Preparation

  • Generalization
  • Bias
  • Variance
  • Classification
  • Regression

Supervised Learning

  • train-test-validation
  • cross validation
  • over\under-fitting Confusion Matrix
  • Accuracy
  • ROC Curve
  • Lift Charts

Model evaluation

  • K-NN
  • Decision Trees
  • Linear Regression
  • Logistic Regression
  • SVM
  • Naïve Bayes

Basic Supervised Learning Algorithms

  • Ensemble Methods: Random Forest, Bagging, etc.
  • Deep Learning
  • NLP

Advanced Methods

  • K-Means and GMM
  • Association Rules
  • Hierarchical Clustering
  • Evaluating Unsupervised methods

Unsupervised Learning

  • Machine Learning Flow in Production
  • Common Technology Stack

Deployment

  • ML final project

ML final project

Advanced SQL– Practical Techniques and Use-Cases(15 Hours)

This module, unique of its kind in Israel, focuses on complex queries, and entirely composed of advanced “real-world” problems and solutions.

This training is based on a decade of experience working with various databases, challenging job interviews questions, and many complex SQL problems. In this course, students learn many different practical applications and “real-world” problems.

Through understanding of the problems this module presents, you will learn many techniques, such as:

  • Complex scalar functions
  • Advanced techniques for filtering and sorting values
  • Working with analytical functions
  • Advanced use of Group Functions
  • Working with complex Sub-Queries
  • Use of CTE and recursive CTE
  • Advanced tables integration using JOIN, UNION and CROSS APPLY
  • XML techniques for solving complex problems
  • Working with PIVOT and UNPIVOT

Introduction to Big Data and Spark (15 Hours)

  • Big data basic concepts
  • Hadoop basics
  • Basic HDFS concepts
  • Working with the HDFS
  • Yarn components
  • MapReduce workflow                 

 

Introduction to Big Data

 

  • Basics
  • RDD Operations
  • Spark SQL and DataFrames
  • Spark ML

Introduction to Apache Spark (PySpark)

 

 

תגיות