Connettori
Connettore MongoDB per Apache Spark
Crea nuovi sofisticati strumenti di real-time analytics combinando Apache Spark, il motore di elaborazione dati leader di settore, con MongoDB, il database in più rapida crescita. Il connettore MongoDB per Apache Spark è attualmente disponibile, certificato e supportato per l'uso in produzione.
Accedi subito agli insight
Viviamo in un mondo di "big data". Ma il valore non sta tanto nei dati in sé: sta negli insight che se ne possono trarre. E la rapidità con cui un'azienda riesce a estrarre tali insight e ad agire di conseguenza è diventata un fattore cruciale di vantaggio competitivo. Non è più sufficiente acquisire i dati dai sistemi aziendali e quindi affidarsi a processi ETL batch notturni per aggiornare il data warehouse.
Libera la potenza di Apache Spark
Il connettore MongoDB per Apache Spark espone tutte le librerie di Spark, comprese Scala, Java, Python e R. I dati di MongoDB vengono materializzati come DataFrame e Dataset per l'analisi con API di apprendimento automatico, grafici, streaming e SQL.
Sfrutta la potenza di MongoDB
Il connettore MongoDB per Apache Spark può sfruttare l'aggregation pipeline di MongoDB e gli indici secondari avanzati per estrarre, filtrare ed elaborare solo i dati necessari, ad esempio analizzando tutti i clienti che si trovano in un'area geografica specifica. Gli archivi dati NoSQL tradizionali non offrono indici secondari o aggregazioni nel database. In questi casi Spark dovrebbe estrarre tutti i dati in base a una semplice chiave primaria, anche se per il processo da eseguire necessita solo di un sottoinsieme di tali dati. Il connettore MongoDB per Apache Spark posiziona gli RDD (Resilient Distributed Dataset) con il nodo MongoDB di origine per ridurre al minimo lo spostamento dei dati nel cluster e ridurre la latency.MongoDB e Apache Spark: il duo vincente per la moderna scienza dei dati
MongoDB offre già in modo nativo sofisticate funzionalità di real-time analytics. Vi sono tuttavia casi d'uso dove l'integrazione del motore Apache Spark può ampliare le capacità di elaborazione dei dati operativi gestiti da MongoDB. Ciò consente agli utenti di sfruttare attivamente i risultati generati da Spark all'interno dei processi aziendali in tempo reale supportati da MongoDB.