Mr.好好吃的資料遊樂園
網頁
首頁
關於我
GitHub
2018年1月28日 星期日
[HDFS] python hdfs套件使用
本範例使用python hdfs套件來串聯HDFS, 可對
HDFS做一些檔案的檢查, 之後再使用spark將訓練完的model寫入HDFS
閱讀更多 »
2018年1月27日 星期六
[Spark][ML] Feature Transformers 特徵轉換器
特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式,
Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試
閱讀更多 »
[Cassandra] 監控與維運
介紹C*監控與維運常用command與用法
閱讀更多 »
[Cassandra] 基本觀念
介紹Cassandra基本觀念, schema設計與一些常見的名詞解釋
閱讀更多 »
[Spark] dataframe 基本統計(轉貼)
Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含:隨機數據生成. 總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數
閱讀更多 »
[Spark] Spark效能優化(未完成)
Spark效能優化
閱讀更多 »
[Cassandra] 基本安裝方式
介紹Cassandra基本安裝方式
閱讀更多 »
[Kafka] 基本安裝方式 - 手動安裝
Apache Kafka是一個分散式的訊息處理framework,
透過publish來發佈message,以及subscribe來訂閱取得message, 這裡提供簡單的安裝方式.
閱讀更多 »
[Python] 常用基本語法
Python基本用法, 快速查詢用, 另外DataCamp有提供相當多資料科學學習資源, 也有Python cheat sheet可供下載, 在此附上連結
閱讀更多 »
2018年1月26日 星期五
[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用
JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中
, 本篇文章簡單描述安裝設定的過程與spark中使用的方式
閱讀更多 »
2018年1月25日 星期四
[Python] code style(轉貼)
網路上轉貼的Python命名規則, 統一程式碼風格使用
閱讀更多 »
較新的文章
首頁
訂閱:
文章 (Atom)