顯示具有 spark 標籤的文章。 顯示所有文章
顯示具有 spark 標籤的文章。 顯示所有文章

2018年8月14日 星期二

[Recommend][Spark][ML] 協同過濾

Spark MLlib支援ALS(alternating least squares)推薦演算法, 是機器學習的協同過濾推薦算法, 透過觀察到所有用戶給的產品評價, 來推斷每個使用者的喜好, 找出與你對產品的評價相近的使用者

2018年7月20日 星期五

[Spark] master HA

Spark是屬於master-slaves的架構, master有可能因為某些因素導致壞掉而停止工作, 官網有提到幾個master HA的方法, 這篇使用zookeeper進行HA

2018年3月10日 星期六

[Python][Cassandra][Spark] pyspark與Cassandra整合

 
python , pyspark與Cassandra資料交換需要透過特別的套件, 一個是python-cassnadra-driver, 一個是pyspark-cassandra-connector, 這裡介紹使用方法和Spark-Cassandra部屬策略

2018年1月27日 星期六

[Spark][ML] Feature Transformers 特徵轉換器

特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式, Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試


[Spark] dataframe 基本統計(轉貼)

Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含:隨機數據生成.  總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數


[Spark] Spark效能優化(未完成)

Spark效能優化

2018年1月26日 星期五

[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用

JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中, 本篇文章簡單描述安裝設定的過程與spark中使用的方式