Data Scientist

מק"ט: #7716 | משך קורס: 240 שעות אק'

בדגש על עולמות Mobile, Cyber, Big Data ,Digital
בעולם בו כמויות המידע הזורמות לארגון ונשמרות במאגרי הנתונים, הולך ומתעצם, החשיבות של הבנת המידע, בחינת הנתונים הגולמיים, זיהוי מבני המידע והמגמות שלהם, יכולת הסקת מסקנות והשערות מהמידע, כמו גם חיזוי, הופך לחיוני לחיי הארגון. ראיית על של נתוני הארגון ותרגומם לכדי יתרונות עסקיים, נמצאת תחת כותרת המקצוע הנחשק – מדען הנתונים.

לפרטים נוספים, מלא את פרטיך או התקשר 03-7100779
*שדות חובה

אודות

מדען נתונים הוא הגדרת תפקיד, המיועדת לתאר עובד או יועץ אינטליגנציה עסקית (BI), המתמחה בניתוח כמויות גדולות של נתונים, לשם יצירת יתרון עסקי תחרותי לארגון. מקצוע מדען הנתונים, מכיל שילוב של יכולת אנליטית, למידת מכונה, כריית נתונים ומיומנויות סטטיסטיות, כמו גם, ניסיון בקידוד אלגוריתמים.
מדען הנתונים, למעשה, מהווה את השלב הבא באבולוציות תחקור הנתונים. ליבת הכישורים של מדען נתונים, הינה היכולת לשאול את השאלות הנכונות לגבי הנתונים, ולפרשם באופן אפקטיבי לשם יצירת יתרון תחרותי לארגון. הוא נדרש לעסוק במספר תחומי ידע, לשלוט במספר כלי תוכנה, ויחד עם זאת, להיות בעל ראיה עסקית. כל זאת, בהתפרש על מספר תחומים, כשכל תחום בפני עצמו, מהווה עולם שלם.
לשם כך, נדרשת הכשרה בתחום התכנות, ובנוסף, הכשרה בהיבטים מתמטיים וסטטיסטיים, השייכים לעולם ה- Data Science.
הנושאים המובאים בקורס זה, הותאמו לצרכים שעלו מארגונים שונים, וגובשו בשיתוף ובהתייעצות עם מספר רב של חברות וגורמים במשק.

עוד על הצורך והביקוש של המקצוע הנחשק data Scientist, מתוך העיתונות העולמית:

 

Bloomberg Businessweek

http://www.bloomberg.com/news/articles/2015-06-04/help-wanted-black-belts-in-data

A new species of techie is in demand these days—not only in Silicon Valley, but also in company headquarters around the world. “Data scientists are the new superheroes,” says Pascal Clement, the head of Amadeus Travel Intelligence in Madrid.

Forbes

http://www.forbes.com/sites/gilpress/2015/10/09/the-hunt-for-unicorn-data-scientists-lifts-salaries-for-all-data-analytics-professionals/#3bcd30e47a64

Unicorn Data Scientists (upgraded from “sexy data scientists”) are hard to find and are paid more than $200,000 per year. A new survey finds that the rising data science tide lifts the compensation of all other data analytics professionals

 
 

תיאור התפקיד:

מדען הנתונים (Data Scientist) נדרש ליכולות מגוונות הנוגעות לחקר נתונים והבנתם. בין היתר עליו להתמצא בנושאים:
חקר מקורות נתונים קיימים או חדשים, על מנת לייצר עבורם "מילון נתונים"
שיפור איכות הנתונים, במגוון שיטות וכלים
  • חקר נתונים, על מנת לזהות ולהבין תבניות (Patterns). זאת, הן באמצעות סטטיסטיקה מסורתית והן בשימוש בכלים מתקדמים, כגון: "כריית נתונים" (= DM Data Mining) ולמידת מכונה (Machine learning = ML)
  • פיתוח אלגוריתמים ויכולת למידה על סמך נתונים קיימים ונתונים שיאספו בעתיד
  • הצגה ויזואלית ( Visualization) של נתונים
  • הצגת תובנות עסקיות למנהלים ולקוחות


ניהול מקצועי של המסלול:

איתי גורדון - יזם ובעלים של חברות טכנולוגיות העובד מול ארגוני ענק בארץ ובעולם בתחום של Big Data & Machine learning.
ניסיון של מעל 25 שנה בהובלה של פרויקטי ענק בתחומי חומרה, תוכנה, מערכות שו"ב ו- HLS.
 
 

תרגול:

  • במהלך הקורס יתבצע פרוייקט מתגלגל, בהיקף 25 שעות (5 מפגשים). פרוייקט זה נבנה על בסיס דרישות המעסיקים בתעשייה.
  • בנוסף, הלומדים בקורס ידרשו לכ- 60 שעות תרגול עצמאיות. 

קהל יעד

קהל יעד:

  • בעלי תואר ראשון ומעלה מתחומי הכלכלה, הנדסת תעשיה וניהול, סטטיסטיקה, מתמטיקה, ביולוגיה, כימיה , פיזיקה או בעלי תארים גבוהים במדעי החברה, עם רקע במחקר סטטיסטי
  • אנשי BI עם ידע חזק במתמטיקה
  • ראשי צוותים ומנהלי פיתוח עם רקע חזק בחקר ביצועים / אלגוריתמיקה
  • מנתחי מערכות, הרוצים להעשיר יכולותיהם בתחום חדש זה
  • מפתחים בסביבות שרת, הרוצים להיכנס לתחומי ידע חדשים

 

דרישות קדם:

  • אנגלית טכנית
  • קורס במתמטיקה / סטטיסטיקה של תואר ראשון או מקביל
  • רקע / היכרות עם בסיסי נתונים
  • היכרות עם שפת פיתוח כלשהי (כולל שפות Script)
  • מבדק התאמה 

 

דרישות מהסטודנטים:

לצורך ההצלחה במסלול יש לעמוד בדרישות הבאות:

  • במהלך הקורס יינתנו מספר פרויקטים אשר ידרשו השקעה עצמית נוספת
  • השתתפות בכל השלבים של כל פרויקטים והגשתם

 

זכאות לתעודת סיום:

  • זכאות לתעודת גמר, מטעם ג'ון ברייס הדרכה, מותנית:
    • בנוכחות ב- 80% מן המפגשים לפחות
    • במעבר כל המבחנים הפנימיים לאורך הקורס
    • בהגשת תוצרי כל הפרויקטים לאורך הקורס
    • במעבר פרויקט גמר

משך

  • 240 שעות (180 שעות לימוד פרונטליות + 60 שעות תרגול עצמאי)
  • לימודי ערב מ- 17:30 עד 21:45, שני מפגשים שבועיים
  • הלימודים אינם מתקיימים בחגים ומועדים. לוח חופשות עדכני יחולק לסטודנטים

נושאים

Module Description

Module Title

  • What are the DS roles
  • DS projects & tools
  • What is data exploration
  • What is structure & un- structure data type
  • What is Data Quality (DQ)
  • Tools that are used by DS

Introduction to data science & projects

  • Intro to Java language (JDK, JRE)
  • Java data types , XML & Json
  • Loops & conditions
  • Basic objects & class
  • Basic input / output including streams with serialization
  • Basic Data access to RDMS with JDBC connector  

Java fundaments for DS

  • Displaying & updating data that is in XML & transform it to JSON

Personal project 1

  • Intro to ANSI – SQL & RDMS
  • Inserting , updating , deleting data from the data base (DML)
  • Creating and managing the data base (DDL)
  • Complex queries such as nested queries 
  • Data aggregations & sorting  

MS- SQL

  • Querying the data from inside the Java project including inserting & updating the data

Personal project 2

  • Basic python
  • Python data type
  • Loops & conditions
  • Working with files
  • Working with data bases
  • Importing packages (numpy ,sci-kit learn)

Python

  • Creating X,Y , bubble graphs & data manipulations by using Python 

Personal project 3

  • Basic R language
  • R packages
  • Basic data frames in R
  • Regression & simulation using R
  • Basic plotting & GGPLOT
  • Multi Regression in R
  • Basic data mining in R (K-mean, tree, forest, SVM)
  • Data cleansing

“R”

  • Creating basic data simulation with R
  • Basic histograms & graphs in R

Personal project 4

  • What is ML
  • The types of ML
  • Using Orange
  • What are the type of data that can be implemented by ML
  • Clustering
  • Regression
  • Other ML
  • Deep learning

Machine Learning

 

  • Crating ML flow for clustering , regression and SVM using “Orange”

Personal project

  • Organization Requirements
    • Data needed, business logic, data resources
    • Different kind of users and organizations
    • Historical depth
    • Data in rest vs Data in Motion
  • What is Big-Data
  • Big-Data Characteristics & types
  • Challenges  and complexity
  • Use cases in today's world
  • Data scientist role in BD environment

Introduction To Big-Data Business Analysis and Logical Architecture

  • Hadoop:
    • Basic Commands of Hadoop
  • Hive:
    • Introduction to Hive for ad-hoc queries
    • Hive basics
    • Hive data types
    • HiveQL
  • Pig:
    • Introduction to Pig as data flow language
    • Pig Latin basic expressions
    • Operators for data processing
  • Hbase:
    • Introduction to Hbase for processing huge tables
    • Hbase data model
    • Hbase vs. RDBMS
    • Client API (CRUD, queries and batch operations)
    • Interactive REST clients

Hadoop based data types and operations

Over hadoop 

  • What is SPARK
  • Spark streams
  • Using basic spark SQL
  • Using spark SQL
  • Using SPARK for ML

SPARK

  • Putting all together
  • From free text / CSV to Data mining , data manipulation ML over SPARK using Java / Python / R

Final Lab

 
תגיות