2018年9月17日 星期一

[Kafka] 基本安裝方式 - 使用Docker安裝

本篇使用Docker方式進行安裝Kafka, 目的是快速建立測試環境, 讓開發者體驗kafka的運作方式, 環境Ubuntu Linux

2018年8月14日 星期二

[English] 差旅英文(二)

差旅英文(二)

[English] 上班族的日常生活英文實用句(一)

上班族的日常生活英文實用句(一)

[English] 差旅英文(一)

差旅英文(一)

[English] 接待客人Ice-breakers破冰話題

接待客人Ice-breakers破冰話題

[English] Conference call 必備句

Conference call實用句

[Recommend][Spark][ML] 協同過濾

Spark MLlib支援ALS(alternating least squares)推薦演算法, 是機器學習的協同過濾推薦算法, 透過觀察到所有用戶給的產品評價, 來推斷每個使用者的喜好, 找出與你對產品的評價相近的使用者

[Recommend] 推薦系統觀念

推薦系統概念介紹, 提到數據採集和處裡的一些觀念, 與工程上可能遇到的問題, 然後使用幾個實作範例來感受一下推薦功能的魅力

2018年7月20日 星期五

[Spark] master HA

Spark是屬於master-slaves的架構, master有可能因為某些因素導致壞掉而停止工作, 官網有提到幾個master HA的方法, 這篇使用zookeeper進行HA

2018年7月6日 星期五

[Python] 學習Pythonic的Python - (1)


如果第一個學習的不是Python語言, 常常依照其他語言的語法來寫Python, 這裡紀錄常被遺忘但卻重要的寫法, 節錄自書本Python神乎其技 

[Data Analysis] Data Analysis基本觀念(未完成)


工程人員雖然對於數據處理技術方面相對在行, 但一般不具備數據分析的know how, 不清楚管理階層或user所面臨的難題, 必須花費時間進行溝通, 本篇節錄SQL商業資料分析術部分章節

2018年6月27日 星期三

[Python] 學習Pythonic的Python - (2) (effective Python)


如果第一個學習的不是Python語言, 常常依照其他語言的語法來寫Python, 這裡紀錄常見語法的Python寫法本篇參考網路上的文章, 一些作者整理了Effective Python中相當多值得學習的地方, 完整連結於文章最下方

2018年3月10日 星期六

[Python][Cassandra][Spark] pyspark與Cassandra整合

 
python , pyspark與Cassandra資料交換需要透過特別的套件, 一個是python-cassnadra-driver, 一個是pyspark-cassandra-connector, 這裡介紹使用方法和Spark-Cassandra部屬策略

2018年2月7日 星期三

[NumPy] NumPy Basic

NumPy是大部分Python熱門程式庫的底層, 有龐大的生態體系, 是學習其它套件的入門磚, 學習NumPy的關鍵在於它的矩陣處理, 不同套件之間透過轉換處理之後即可輕鬆整合, 這裡記錄常用語法方便查詢用 

2018年2月3日 星期六

[Pandas] 資料探索與前處理實作(1)

pandas dataframe以類似表格方式展示資料, 相當快速且方便,  也提供豐富的函式庫供資料處理分析使用, 當我們將資料從各種來源匯入後, 因為來源相當多元, 各種系統格式皆不同, 遺漏資料的狀況也屢見不鮮, 必須先對資料進行探索與前處理, 並可搭配matplotlib視覺化函式庫整合, 將探索的結果視覺化

[Flask]FlaskAPI撰寫方法與Decorator檢查參數

Flask是個簡易的WebAPI撰寫框架, 短時間內即可實現網路服務, 這裡使用Flask做個範例, 並且搭配Python Decorator檢查Request參數, 最後用Json回傳結果


2018年2月2日 星期五

2018年1月28日 星期日

[HDFS] python hdfs套件使用


本範例使用python hdfs套件來串聯HDFS, 可對HDFS做一些檔案的檢查, 之後再使用spark將訓練完的model寫入HDFS


2018年1月27日 星期六

[Spark][ML] Feature Transformers 特徵轉換器

特徵值處理是資料工程中的一個重要環節, 用來將資料轉換為MLlib需要的格式, Feature Transformers為Spark所提供相當方便的工具, 本篇是使用Dataframe格式將官網範例做個測試


[Cassandra] 監控與維運

介紹C*監控與維運常用command與用法



[Cassandra] 基本觀念

介紹Cassandra基本觀念, schema設計與一些常見的名詞解釋

[Spark] dataframe 基本統計(轉貼)

Spark dataframe 基本統計方法, 整理幾個重點保存下來, 包含:隨機數據生成.  總結和描述性統計. 樣本協方差和相關性. 交叉分類匯總表. 頻繁項. 數學函數


[Spark] Spark效能優化(未完成)

Spark效能優化

[Cassandra] 基本安裝方式


介紹Cassandra基本安裝方式

[Kafka] 基本安裝方式 - 手動安裝


Apache Kafka是一個分散式的訊息處理framework, 透過publish來發佈message,以及subscribe來訂閱取得message, 這裡提供簡單的安裝方式.


[Python] 常用基本語法

Python基本用法, 快速查詢用, 另外DataCamp有提供相當多資料科學學習資源, 也有Python cheat sheet可供下載, 在此附上連結


2018年1月26日 星期五

[Spark] 從關聯式資料庫存取資料的方法--使用JDBC使用

JDBC 目的是連結MSSQL,MYSQL等關聯式資料庫取得資料表的資料並傳入Spark的dataframe格式當中, 本篇文章簡單描述安裝設定的過程與spark中使用的方式