Guida per diventare Data Scientist in Amazon

Guida Data Masters per interviene Data Scientist ad Amazon

Marzo 23, 2023

Se il tuo obiettivo è lavorare come data scientist in una delle aziende tech più importanti su scala globale questa è la guida che fa per te.

L’iter di selezione per aspiranti data scientist in Amazon si articola in più fasi e ogni passaggio ha le sue specificità e richieste da soddisfare.

In questo articolo abbiamo fatto una panoramica del percorso che farà di te una delle figure più richieste e remunerate del mercato, raccogliendo tutte le informazioni necessarie per prepararti al meglio.

Partiamo dalle basi: cosa fa un data scientist in Amazon?

I data scientist di Amazon svolgono una varietà di funzioni, le principali sono:

  • Progettazione, sviluppo e distribuzione di modelli basati sui dati e soluzioni di analisi;
  • Sviluppo di modelli predittivi accurati;
  • Sviluppo di pipeline di dati;
  • Distribuzione di soluzioni software automatizzate per assistere nelle previsioni;
  • Ricerca, progettazione e miglioramento di modelli.
Requisiti fondamentali

Amazon assume solo professionisti dei dati con esperienza e altamente qualificati e l’azienda ha alcuni degli standard di selezione più rigorosi del settore. I requisiti principali per i ruoli in Data Science includono:

  • Laurea magistrale in qualsiasi campo quantitativo come statistica, finanza, economia, informatica, matematica, fisica, biologia computazionale, o esperienza pratica equivalente.
  • 2+ anni di esperienza lavorativa (4+ anni per ruoli di Senior Data Scientist) in un ruolo analitico che coinvolge tecniche di apprendimento automatico, estrazione di dati, analisi e data visualization.
  • Competenza (4+ anni di esperienza come Senior Data Scientist) nell’uso di pacchetti software statistici e linguaggi di programmazione come R, Stata, Matlab, Python, SQL, C++ o Java.
  • Esperienza nella progettazione e implementazione di algoritmi di machine learning su misura per specifiche esigenze aziendali e testati su grandi set di dati.
  • Esperienza nel data mining e nell’utilizzo di database aziendali con set di dati complessi e su larga scala.
  • Eccellenti capacità di comunicazione verbale e scritta con la capacità di trasmettere efficacemente soluzioni tecniche a ricercatori, team di ingegneri e management.
Requisiti preferenziali

Molti ruoli inerenti alla Data Science in Amazon hanno qualifiche aggiuntive considerate preferenziali, tra cui:

  • Dottorato di ricerca in un campo quantitativo (informatica, matematica, apprendimento automatico, intelligenza artificiale, statistica o equivalente)
  • Solide capacità di gestione aziendale e project management
  • Esperienza nella visualizzazione di dati complessi
Cosa aspettarsi durante il processo di recruitment

L’iter di selezione in Amazon è simile a quello di altre società tecnologiche. Il processo di solito inizia con una prima call da parte di un recruiter alla quale seguirà una seconda più tecnica, che include almeno un esercizio di coding. Infine, superati i primi step, si viene invitati per un colloquio in sede che di solito si svolge in cinque fasi.

Vediamo nel dettaglio.

  1. Call telefonica col reclutatore

La call iniziale arriva dopo che hai inviato la domanda e vieni contattato da un professionista HR o da un recruiter. Questo è un colloquio telefonico basato sul curriculum che normalmente dura un’ora. La conversazione si concentra principalmente sulle capacità acquisite, sulle esperienze precedenti e si viene introdotti al ruolo che si andrà a ricoprire in azienda.

Ecco alcune domande tipiche di questa fase:

  • Raccontami un momento in cui non eri d’accordo con il tuo supervisore.
  • Raccontami di un’occasione in cui hai avuto due scadenze ravvicinate o sovrapposte. Come hai gestito la situazione?
  • Raccontami di una volta in cui hai affrontato un ostacolo poco prima di una scadenza. Che cosa hai fatto?
  1. Screening tecnico

Lo screening tecnico comprende almeno due esercizi di coding e una serie di domande su Machine Learning, SQL e statistica.

Questo colloquio viene eseguito sfruttando la piattaforma “CollabEdit”, che consente all’interlocutore di vedere in tempo reale il lavoro del candidato. Importante in questa fase è spiegare nel dettaglio come si è arrivati alla soluzione esplicitando tutti i passaggi intermedi, o motivare la scelta di un determinato approccio.

  1. Colloquio in sede

Durante il colloquio in sede, vengono fatte domande su progetti passati e presenti, sul Machine Learning, sulla modellazione predittiva, sull’analisi esplorativa e sul coding.

Questa fase consiste in cinque colloqui consecutivi di 45 minuti circa. Vengono condotti individualmente con un manager e un data scientist senior e prevedono:

  • colloquio comportamentale
  • colloquio tecnico che include l’analisi dei dati
  • interview basata su SQL con un data scientist
  • colloquio di data analysis
  • interview focalizzata sul Machine Learning

In particolare, le macro-aree dove si concentrano la maggior parte delle domande sono:

  • Machine Learning e Algoritmi
  • Python
  • SQL
  • Domande comportamentali
Domande sul Machine Learning

I tipi più comuni di domande sull’apprendimento automatico che vengono poste nei colloqui di Amazon sono la progettazione del sistema e le domande sui modelli applicati. Entrambi i tipi richiedono di illustrare un modello di dati o l’architettura dell’apprendimento automatico. Si possono anche prevedere domande sulle definizioni e discussioni sui diversi tipi di modelli di apprendimento automatico.

  1. Qual è la differenza tra xgboost e random forest?

Random Forest è un algoritmo di bagging e, nell’utilizzarlo, si dispone di diversi modelli di base o alberi decisionali, che vengono generati in parallelo e contribuiscono all’output del modello.

Nel boosting, invece, gli alberi sono costruiti in sequenza, in modo che ogni albero successivo miri a ridurre gli errori dell’albero precedente. Ogni albero impara dai suoi predecessori e aggiorna gli errori residui. Pertanto, l’albero che cresce successivamente nella sequenza apprenderà da una versione aggiornata dei residui.

  1. Che cos’è la varianza in un modello?

La varianza è la misura di quanto varierebbe la previsione se il modello fosse addestrato su un set di dati diverso, tratto dalla stessa popolazione. Può essere considerata anche come la “flessibilità” del modello.

  1. Cosa faresti se il 20% dei 100.000 annunci di vendita mancasse dei dati sulla metratura. Si vuole prevedere il prezzo.

Questa è una classica domanda da colloquio in Data Science. La pulizia dei dati è un problema ben noto nella maggior parte dei set di dati quando si costruiscono modelli. I dati della vita reale sono disordinati, mancanti e quasi sempre devono essere gestiti. La chiave per rispondere a questa domanda è sondare e fare domande per saperne di più sul contesto specifico. Ad esempio, dovremmo chiarire se ci sono altre caratteristiche che contribuirebbero a imputare in maniera ponderata i prezzi mancanti.

  1. Come progettereste il motore di raccomandazione dei video di YouTube?

Le domande sulla progettazione di sistemi di apprendimento automatico sono comuni nei colloqui di Amazon. Queste domande sono pensate per valutare il modo in cui si agisce in uno scenario di progettazione.

Domande su ML e Algoritmi

Nei colloqui con Amazon, le domande sugli algoritmi sono pensate per valutare la tua comprensione degli algoritmi. Anche se in alcuni casi può essere coinvolta la programmazione, il motivo principale per cui queste domande vengono poste è determinare se:

Sai come funziona un algoritmo;

Sei in grado di spiegare la matematica che sta alla base degli algoritmi più comuni;

  1. Che cos’è la discesa del gradiente?

La discesa del gradiente è un metodo per minimizzare la funzione di costo. La forma della funzione di costo dipende dal tipo di modello supervisionato. Quando si ottimizza la funzione di costo, si calcola il gradiente per trovare la direzione di salita o discesa più ripida.

  1. Quali sono i presupposti della regressione lineare?

Quando si chiede quali sono i presupposti della regressione lineare, bisogna sapere che ci sono diversi presupposti e che sono incorporati nel set di dati e nel modo in cui viene costruito il modello. Il primo presupposto è che esista una relazione lineare tra le caratteristiche che descrivono gli esempi forniti e la variabile obiettivo, altrimenti nota come il valore che si sta cercando di prevedere.

  1. Come si rileva e si gestisce la correlazione tra le variabili nella regressione lineare?

La correlazione tra gli input in un modello di regressione descrive una situazione in cui due o più variabili indipendenti sono altamente correlate tra loro. Ci sono molti indicatori che possono essere utilizzati per rilevare questo fenomeno.

Python

Amazon tende a testare la conoscenza in Python in modo più rigoroso rispetto ad altre aziende tecnologiche. In particolare, le domande di Amazon su Python valutano la capacità di scrivere codice pulito e coprono argomenti come statistiche e distribuzione, strutture di dati e parsing di stringhe.

Esempi:

  1. Scrivi una funzione per generare N campioni da una distribuzione normale e tracciate l’istogramma.

Si tratta di un problema relativamente semplice, perché dobbiamo impostare la nostra distribuzione e poi generare n campioni da essa che vengono poi tracciati.

  1. Scrivi una funzione shortest transformation per trovare la lunghezza della sequenza di trasformazione più breve da begin_word a end_word attraverso gli elementi di word list.

In genere, gli algoritmi di shortest path richiedono che la soluzione provi ricorsivamente ogni possibile percorso corrispondente dall’inizio alla fine.

Ogni parola di word_list ha la stessa lunghezza.

La differenza massima tra due parole nel percorso è di una sola lettera.

Il percorso più breve potrebbe richiedere di andare avanti e indietro nell’elenco, invece di andare solo avanti.

Non possiamo scegliere la stessa parola due volte nel percorso.

Potrebbe esserci un percorso più breve più avanti nell’elenco.

  1. Scrivere una funzione per determinare i valori di TF (term_frequency) per ogni termine del documento.

Ecco una rapida panoramica di come risolvere questo problema: Innanzitutto, dividere le frasi in parole. Quindi, utilizzare un dizionario per contenere il conteggio di ogni parola. Quindi, dividere il conteggio di ogni lavoro per il numero totale di parole e restituire il risultato.

SQL

Puoi aspettarti almeno una domanda su SQL nello screening tecnico, mentre il numero aumenta considerevolmente durante i colloqui in sede, focalizzati su questo linguaggio e sull’analisi dei dati. In generale, le domande Amazon tendono a concentrarsi sulle metriche dei clienti e sui casi di e-commerce.

  1. Scrivi una query per ottenere una tabella che includa tutti i nomi dei prodotti che un utente ha acquistato.

In questa domanda viene fornita una tabella contenente i dati relativi ai prodotti acquistati da un utente. I prodotti sono suddivisi in categorie. La colonna id è la chiave primaria della tabella prodotti e rappresenta l’ordine di acquisto dei prodotti.

  1. Scrivi una query per ottenere la distribuzione del numero di conversazioni create da ciascun utente per giorno nell’anno 2020.

In questa domanda viene fornita una tabella che rappresenta il numero totale di messaggi inviati tra due utenti per data su Messenger.

Quali sono gli spunti che si possono ricavare da questa tabella?

Come pensi che sia la distribuzione del numero di conversazioni create da ciascun utente al giorno?

  1. Data una tabella utenti, scrivi una query per ottenere il numero cumulativo di nuovi utenti aggiunti al giorno, con il totale azzerato ogni mese.

Questa domanda sembra inizialmente risolvibile semplicemente eseguendo un COUNT(*) e raggruppando per data. O forse si tratta di una normale funzione di distribuzione cumulativa? Ma dobbiamo notare che in realtà stiamo raggruppando per un intervallo specifico di mese e data. E quando arriva il mese successivo, vogliamo azzerare il conteggio del numero di utenti.

Domande comportamentali

Le domande comportamentali nei colloqui Amazon si concentrano fortemente sui principi di leadership. Ogni domanda è un’opportunità per dimostrare come le esperienze passate siano in linea con questi principi.

Alcuni argomenti da trattare sono l’impatto del tuo lavoro, il modo in cui il tuo lavoro è stato utile ai clienti, i rischi che hai corso e la tua capacità di innovare e semplificare.

  1. Fammi un esempio di un’attività che hai svolto e che ha avuto un impatto sul business.

“Fornire risultati” è un principio di leadership di Amazon. Una domanda ti permette di fornire esempi concreti dei risultati che hai ottenuto. Puoi parlare di un aumento del coinvolgimento degli utenti, di un miglioramento delle prestazioni di marketing, di un’efficienza operativa, ecc. Ricorda sempre di strutturare la risposta. Il formato STAR funziona bene. Evidenzia il problema. Parla di come hai affrontato il problema e del tuo piano d’azione. Quindi, parla dell’esecuzione e dei risultati ottenuti.

  1. Come fai a rendere gli argomenti più tecnici accessibili a un pubblico non tecnico?

Per rispondere a questa domanda, potresti parlare dello sviluppo di visualizzazioni facilmente accessibili o di come hai creato una presentazione che inquadra il tuo progetto in parti facilmente assimilabili. Una domanda come questa valuta la tua capacità di collaborare e comunicare efficacemente.

  1. Parlami di un progetto sui dati a cui hai lavorato e in cui hai incontrato un problema impegnativo. Come hai reagito?

Questa domanda è un’occasione per parlare del tuo approccio a una situazione difficile o problema complesso e del piano operativo messo in atto per risolverlo.

Qual è lo stipendio medio di un data scientist che lavora in Amazon

Lo stipendio base medio per un Data Scientist in Amazon è di 134,858 USD, mentre il compenso totale medio stimato è di 209.327 USD

Suggerimenti per il colloquio come Data Scientist in Amazon

Come detto in precedenza, Amazon è tra le big tech più selettive quando si tratta di scegliere una nuova risorsa da integrare nelle business unit che si occupano di Data Science.

Ecco alcuni suggerimenti che ti potranno aiutare a distinguerti durante il processo di selezione:

  • Concentrati sulle competenze tecniche: ad esempio, ottimizzazione delle query e funzionamento degli algoritmi di machine learning più comuni.
  • Memorizza i 14 principi di leadership secondo Amazon: utilizza i progetti passati e le esperienze lavorative per illustrare questi principi.
  • Acquisisci familiarità con i prodotti Amazon: diverse domande verteranno sulle funzionalità e servizi di Amazon. In molti casi, ti verrà chiesto di applicare il Machine Learning ad uno specifico contesto aziendale.

Esercitati nel whiteboard coding: ovvero scrivere codice non in un ambiente di sviluppo integrato (IDE) ma su una lavagna o su un foglio di carta. Queste prove servono per testare le capacità di problem solving di un candidato, il suo adattamento alle difficoltà che possono sorgere durate la programmazione e il ragionamento alla base di ogni singola scelta e soluzione.

Dopo aver letto tutti questi suggerimenti, potresti sentirti sopraffatto o pensare di non avere ancora le competenze necessarie per affrontare un colloquio di questo calibro. Ma non preoccuparti, ogni esperto è stato una volta un beginner.

Se il tuo obiettivo è diventare un Data Scientist partendo da zero, Data Masters ha progettato il percorso su misura per farlo.
Tutto quello che ti serve per iniziare la carriera nella Data Science in un unico corso.
Attualmente lo trovi scontato del 50% 👇

SCOPRILO

Condividi articolo su