Mr.好好吃的資料遊樂園: spark

顯示具有 spark 標籤的文章。顯示所有文章

顯示具有 spark 標籤的文章。顯示所有文章

2018年8月14日星期二

[Recommend][Spark][ML] 協同過濾

Spark MLlib支援ALS(alternating least squares)推薦演算法, 是機器學習的協同過濾推薦算法, 透過觀察到所有用戶給的產品評價, 來推斷每個使用者的喜好, 找出與你對產品的評價相近的使用者

閱讀更多 »

2018年8月1日星期三

[Spark] Spark觀念

Spark基本觀念, 可參考本Blog其他Spark文章

閱讀更多 »

2018年7月22日星期日

[Spark] Spark 基本安裝設定

Spark 基本安裝設定

閱讀更多 »

2018年7月20日星期五

[Spark] master HA

Spark是屬於master-slaves的架構, master有可能因為某些因素導致壞掉而停止工作, 官網有提到幾個master HA的方法, 這篇使用zookeeper進行HA

閱讀更多 »

2018年3月14日星期三

[Spark] Dataframe資料前處理實作(使用Python)

Spark Dataframe資料前處理語法整理(使用Python)

閱讀更多 »

2018年3月10日星期六

[Python][Cassandra][Spark] pyspark與Cassandra整合

python , pyspark與Cassandra資料交換需要透過特別的套件, 一個是python-cassnadra-driver, 一個是pyspark-cassandra-connector, 這裡介紹使用方法和Spark-Cassandra部屬策略

閱讀更多 »

2018年1月27日星期六

[Spark][ML] Feature Transformers 特徵轉換器

特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式, Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試

閱讀更多 »

[Spark] dataframe 基本統計(轉貼)

Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含：隨機數據生成. 總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數

閱讀更多 »

[Spark] Spark效能優化(未完成)

Spark效能優化

閱讀更多 »

2018年1月26日星期五

[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用

JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中, 本篇文章簡單描述安裝設定的過程與spark中使用的方式

閱讀更多 »

訂閱：文章 (Atom)