Tối giản việc đọc tin nổi bật, comment chất lượng nhiều reaction trên voz cho các fen bận rộn.

VozFen.com: [thảo luận] [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

@Thích Màu Hường Joined: 08/2020
#1
Ưng 15

[thảo luận] [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Th…
Thích Màu Hường

08/2020

@Thích Màu Hường 08/2020
#3
Ưng 9
Uầy, em thì đang học khóa nhập môn ML của Andrew Ng, dường như ai cũng học khóa này. Học xong rồi bước tiếp theo là gì nhỉ? Em nghĩ học không không thế này cũng khó mà trở thành ML engineer được, mong các thím cho lời khuyên.

Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.

Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.

Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. => Chọn hướng muốn đi.

Cuối cùng, như bao thứ khác, chỉ có practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.

Th…
Thích Màu Hường

08/2020

@Thích Màu Hường 08/2020
#7
Ưng 35
Vàng quan điểm
Bài này mình reply 1 bạn bên thớt "Học khóa LẬP TRÌNH PYTHON CƠ BẢN", post lại bên đây cho ai muốn theo nghề Data:

Làm data thì cũng có nhiều loại, tạm chia làm 3 loại thế này:
1. Data Developer/Data Engineer: cái này làm việc như lập trình viên, nhiệm vụ là xử lý dữ liệu như đọc, ghi, load, transform, patching, làm report, một chút thiết kế database, viết tool ETL. Skills cần có tất nhiên là SQL, một ngôn ngữ lập trình hiện đại để viết tool ETL như C#, các tool làm report, ETL như SSRS, SSIS nếu theo công nghệ của Microsoft, cao hơn thì mấy cái xử lý big data như hadoop.

Nói chung cái này nặng về lập trình, thường là 1 hướng cho các bạn chuyên CNTT nhưng ko muốn làm software mà làm data. Tài liệu học mấy cái kể trên thì có rất nhiều, cái nào cũng được. Cái này dễ kiếm job hơn hai cái sau.

2. Data Anlysist: cái này là người phân tích dữ liệu, background ko nhất thiết phải là dân CNTT. Cái này nặng về phân tích.

Skill cần có và quan trọng nhất là Thống Kê. Tài liệu thì tìm khóa Statistics Probability trên khanacademy course này cực dễ hiểu. Lúc học thì chú trọng các phần như distribution, samples, mean, median, variance, standard deviation, Z-Test, T-Test, Chi-square tests, Anova. Học khóa này xong có thể thi chứng chỉ AP Statistics để làm đẹp CV.
https://www.khanacademy.org/math/statistics-probability

Một khái niệm nữa là Data Weighting cái này cực kỳ quan trọng ai làm phân tích cũng nên biết.

Về tool: SPSS Statsitics, đây là phần mềm chuyên phân tích dữ liệu, ít nhất cũng nên làm quen với nó rồi chạy được các phân tích cơ bản như Descriptive Statistics, Frequencies, Cross-Tab, mấy cái test đã kể trên, Data Weighting. Cái thứ hai là Excel, Excel là tool phân tích dữ liệu cực mạnh mà ít người để ý, ngoài các hàm cơ bản thì phải biết được Pivot Table.

Ngôn ngữ lập trình và các tool visualize: SQL, Python, R, Tableau, Power BI. Về Tableau với Power BI thì mình prefer Tableau vì performance tốt hơn, tài liệu thì vào trang chủ của nó có Tutorial làm rất dễ.

Job nhóm này ít hơn nhóm 1 nhưng thiên về phân tích, ít lập trình hơn. Đa số các bạn học kinh tế, toán thống kê làm được.

3. ML Engineer/Data Scientist: cái này làm về Machine Learning, AI. Skill cần có thì bao gồm tất cả skill của nhóm 1 và 2, đặc biệt là nhóm 2 vì nếu ko biết thống kê thì làm như cái máy mà chẳng hiểu model mình build ra nó tốt xấu chổ nào. Có nhiều mảng khá đặc thù như Computer Vision, Natural language processing, speech recognition, nó là hướng khác mình ko nói ở đây, còn hướng gần gũi hơn mà anh em Data Analyst có thể đi lên là làm các model dự doán cho các ngành đặc thù như doanh số sales, giá bất động sản. v..v..

Học về cái này thì nên tiếp cận theo hướng top-down trước để hiểu overview xem ML, AI nó là cái gì, có các mảng nào, cần những kiến thúc gì rồi pick up 1 mảng mà học thì tiếp cận theo hướng bottom-up, học những cái cơ bản trước rồi nâng cao.

Tài liệu vê cái này thì đọc cuốn Introduction to Machine Learning with Python, cực dễ hiểu và không nặng về toán lắm, học xong có overview rồi thì học sâu về toán.
https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists/dp/1449369413

Ngoài ra còn có course này Machine Learning A-Z™: Hands-On Python & R In Data Science trên Udemy và Machine Learning Andrew Ng trên Coursera

Về toán cho ML, AI: cái quan trọng nhất vẫn là thống kê như đã nói ở nhóm 2. Cái này lúc làm về nó vận dụng nhiều nhất. Cái quan trọng thứ 2 là đại số tuyến tính, bạn lên Khan Acedamy tìm khóa này https://www.khanacademy.org/math/linear-algebra cái này học để hiểu bên trong các thuật toán làm gì. Cái thứ 3 là giải tích, xem lại đạo hàm, tích phân, vi phân học để hiểu bên trong các thuật toán làm gì luôn.

Còn muốn đào sâu về toán để chém gió, hù dọa nhau thì kiếm cuốn này: The Elements of Statistical Learning
https://web.stanford.edu/~hastie/ElemStatLearn//

Job cho nhóm này đang có nhiều nhu cầu, chất, yêu cầu cao.

Th…
Thích Màu Hường

08/2020

@Thích Màu Hường 08/2020
#44
Ưng 4
Phiền bác giới thiệu cho mình khóa học hay sách về Deep Learning.
Cám ơn bác!

Deep Learning thì có vài cuốn như sau:

Neural Networks and Deep Learning của Michael Nielsen. Ai đọc được cuốn này sẽ hiểu rất rõ về ANN. Cuốn này chỉ cách implement ANN từ đầu tới cuối mà không dùng thư viện để nhận dạng số viết tay. Đọc cuốn này xong tha hồ chém gió, hù dọa với những ai làm Deep Learning mà chỉ biết xài tensorflow.
http://neuralnetworksanddeeplearning.com/index.html

Dive into Deep Learning: nội dung khá đầy đủ, bao trùm nhiều mảng
https://d2l.ai/

Deep Learning with Python - François Chollet: đọc dễ hiểu, thiên về pratice hơn.
https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438

bu…
buiduchanh1995

@buiduchanh1995
#57
Ưng 7
mình làm AI đến nay cũng được khoảng 3 năm rồi, làm chính là về computer vision. Theo kinh nghiệm của mình thì làm cái này mà kiểu cầu bất cầu bơ thì cũng chả có gì là quá khó nhưng nếu muốn làm nghiêm túc thì tương đối là khoai. Vấn đề ngành này nó lại yêu cầu cao ở rât nhiều mảng, nghĩa là bạn làm model giỏi, kiến thức tốt nhưng vẫn cần có kĩ năng SE cứng. Vì sao ? vì bh ngta luôn làm product, mấy cái research mấy cty bth chả bh chuyên làm cả, thường là vừa làm AI vừa là SE luôn
Một điểm lưu ý là bh tài liệu rất nhiều, free cũng có, open source cũng nhiều nhưng đã học cái gì thì phải hiểu cái đó :v đừng như cái trend Mì AI bỏ mẹ gì đó đào tạo ra một lứa chả hiểu cái gì chỉ biết git clone rồi python train.py )
Chốt lại ngành này là ngành có tiềm năng phát triển nữa chứ cũng k phải là trend ngắn hạn. Tuy nhiên cần suy nghĩ kĩ vì ngành này yêu cầu tương đối là cao, cần sự chăm chỉ và tìm tòi nhất định muốn ăn xổi thì cũng được nhưng rồi sẽ đến lúc nhận ra mình k có chỗ đứng nữa thì lúc đấy tất cả cũng đã muốn :v dù gì thì ưu điểm cũng là đang trend + yêu cầu cao nên lương lậu cũng tương xứng.
Một góc chia sẻ nhỏ cho bác nào muốn đâm lao nhé :v

a3…
a3.phantom.vn

@a3.phantom.vn
#128
Ưng 4
Vậy cho mình hỏi theo bác, cái sự khác biệt giữa giải thuật neural network với các giải thuật classic nằm ở đâu.
Rồi cái gọi là deep learning nó khác với neural network thường ở chỗ nào.

Cái câu hỏi của mình ở comment trước đó là những thứ mình hiểu sau khi đọc và làm thử, hoàn toàn ko biết đúng hay sai, rất cần người giải đáp, nếu bác hay bạn nào biết và có lòng giải thích cho mình, chỉ ra cụ thể mình sai ở đâu, thì mình rất vui. Mục tiêu của topic ngay từ đầu là vậy mà:

Deep learning so với các thuật toán ML khác có kha khá vấn đề để nói. Mà gõ thì thực sự nó dài lắm, nói miệng mới nhanh được, nên chắc em chỉ ghi keyword thôi. Với lại bác có thể google "advantages of deep learning over machine learning" chẳng hạn để đọc. Một vài thứ em học được:

1. DL giúp rất nhiều cho phần feature engineering (đấy, ví dụ bác chưa biết feature engineering thì phải tự google thôi, chứ em ghi trong này thì lại thành cái sớ mất)
2. DL kết quả rất cao cho dữ liệu unstructured (ảnh, âm thanh, văn bản)
3. DL cần rất nhiều dữ liệu
4. Model từ deep learning có thể biểu diễn được những hàm rất phức tạp -> điểm thứ 2 ở trên. Bù lại cũng dẫn đến điểm thứ 3, đó là dễ overfit
5. Features mà DL extract được ở các hidden layer rất khó giải thích, đây vẫn đang là một hướng nghiên cứu mới. Keyword như explainable, interpretable deep learning

Và còn rất nhiều điều khác. Thực sự thì em thấy bác mà đọc tài liệu introduction về lĩnh vực này thì sẽ đỡ tốn thời gian hỏi trên này rất nhiều. Tuy nhiên bác đang đi làm rồi thì cũng khó thật, không có nhiều thời gian.
Bác hiện tại giống như là quăng vào 1 cái game, chơi tới đâu biết tới đó. Còn người khác là đọc wiki, xem stat của item, nhân vật xong qua một lượt rồi mới vào chơi

Th…
Thích Màu Hường

08/2020

@Thích Màu Hường 08/2020
#201
Ưng 4
Vẫn đang hướng nghiệp nhỉ. Hỏi vài câu technical cụ thể để chém gió nâng cao kiến thức nào.

Ví dụ này mình lấy của thím @xacu69



Giả sử bài toán là build model để phân loại mức độ tín nhiệm người đi vay dựa vào hàng loạt thông tin như ví dụ trên: "telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... ".

Mình có câu hỏi về Feature Selection: thông thường mấy bạn làm Data Analysis, ML dùng các kỹ thuật nào để chọn ra các trường thông tin có ý nghĩa nhất trong việc phân loại giữa hàng trăm trường thông tin như trên?

Up

Th…
Thích Màu Hường

08/2020

@Thích Màu Hường 08/2020
#227
Ưng 8
Lên nào


Bonus resources cuối tuần cho Vozers nào đang học Machine Learning:

1. Ebook: Machine Learning An Algorithmic Perspective 2nd edition - Stephen Marsland
Sách này dùng để học lý thuyết các giải thuật Machine Learning. Cuốn này hay vì diễn giải rất dễ hiểu, đặc biệt có pseudo code và actual code (viết bằng python) cho tất cả các giải thuật. Cuốn này cover hầu hết các giải thuật quan trọng, bao gồm luôn cả Neural Network.

Nói chung đây là cuốn cho ai học giải thuật ML mà còn mơ hồ, đắm trong mớ lý thuyết, công thức toán học mà ko thật sự hiểu step by step các giải thuật làm gì.

2. h2o4gpu: https://www.h2o.ai/products/h2o4gpu/
Cái này ai làm nhiều về ML chắc cũng biết cái platform h2o4gpu này. Hiện tại ngoại trừ Deep Learning thì các giải thuật ML khác, khi training, làm hyperparameter tuning, GridSearchCV đều đụng tới thư viện sklearn là chính. Mặt hạn chế của sklearn là chỉ chạy được trên CPU cho nên chạy rất lâu. Platform h2o4gpu này nó implement các giải thuật ML để chạy trên GPU, CUDA cores. Hiện tại chỉ có version trên Linux nhưng do chạy trên GPU nên có thể tận dụng GPU của Google Colab.

bu…
buiduchanh1995

@buiduchanh1995
#230
Ưng 6
Các bác thấy chỗ Mì AI như thế nào?
rác vãi
1. Kiến thức : admin k có kiến thức nhưng k muốn bị góp ý nặng nề. Suốt ngày loanh quanh YOLO, Facenet, virtualenv, sử dụng colab trong khi thời gian từ khi thành lập đến h là cũng phải hơn 1 năm rồi. Mà nói đơn cử như làm với yolo nhưng k biết anchors là gì với để làm gì
2. Phương pháp : git clone , python train.py, python test.py tạo thanh 1 thế hệ chả biết cái mẹ gì :v cứ nghĩ git clone xong là ez thành AI Engineer.
Nói chung theo em là làm theo thì sẽ được 2 thứ là hỏng luôn về cả kiến thức lẫn tư duy

ti…
timo

@timo
#327
Ưng 6
Sẵn đây làm review nhỏ về DataQuest mà mình đang học cho ai đang muốn tò mò chuyển sang học Data Science.

Mình học trên Data Quest, gói thành viên có giá cao hơn Data Camp (49/tháng vs 29). Hai trang web này thường xuyên có sale gói 1 năm khoảng $300. Có thể chọn học free Chapter đầu tiên của mỗi module để thử xem có phù hợp hay không trước khi mua gói thành viên.

Cả Data Quest và DataCamp đều có rất nhiều bài học, trải dài từ R, Python, SQL...
Data Camp:
- Điểm mạnh:
++Các môn học rất nhiều và đa dạng, nhất là R, SQL. Có video hướng dẫn.​
++Được các công ty bên Mỹ sử dụng để training nhân viên.​
++Có hệ thống bài tập Practice đa dạng.​
- Điểm yếu:
++Code thực hành được điền sẵn, mình chỉ điền vào chỗ trống hoặc rê chuột kéo. Cách học này tạo cảm giác dễ dàng, nhưng rất mau quên. Vì học code phải gõ đi gõ lại nhiều mới nhớ lâu.​

Data Quest:
- Điểm mạnh:
++Phần thực hành mình phải tự gõ lại code theo hướng dẫn. Cách học này giúp nhớ rất lâu và tư duy tốt hơn.​
- Điểm yếu:
++Không có video, phải tự đọc lý thuyết và thực hành.​
++Bài tập Practice chưa nhiều.​
++Chỉ mạnh duy nhất về Python. Các môn học về R và SQL rất thiếu thốn so với DataCamp.​
++Server chậm. Mỗi khi nhập kết quả vào phải chờ mấy chục giây, thậm chí cả phút để server check kết quả.​
++Bị phát hiện dạy Python cũ, trong khi bản mới là 3.8, và họ có hứa sẽ cập nhật.​

Tuy nhiên, sau khi dùng thử và cân nhắc, mình quyết định chọn học trên Data Quest cho path Data Science with Python vì các lý do sau:
  • Các môn học theo path này được xây dựng rõ ràng từng bước, giúp mình biết cách xử lý, phân tích dữ liệu thế nào.
  • Có kết hợp ôn lại Calculus, Linear Algebra, Statistic cơ bản, đủ dùng cho Machine Learning. Data Camp cũng có dạy về các kiến thức này nhưng trong series chuyên sâu về R, còn học beginner thì không có.
  • Phần lý thuyết mặc dù phải tự đọc nhưng có gif minh họa thao tác, nội dung được chia nhỏ ra từng mục nên dễ đọc.
  • Hướng dẫn cài Jupyter, thực hành trên Jupyter online và có thể làm tại máy để quen cách làm việc thực tế.
  • Dạy cách làm project từ data thô trên Kaggle để sau này tham gia các challenge trên Kaggle.
Nói chung là mình từ một người mù hoàn toàn về data nhưng học thử trên Data Quest thì thấy tự tin hơn hẳn, và biết cần làm gì nếu được giao một project về data.

Tuy nhiên, các trang web này đều chỉ dạy cái cơ bản, không có chuyên sâu.

Nếu ai muốn học free thì có thể lên Coursera, có rất nhiều Certification về Data Analyst, Data Science, Data Engineer của các công ty lớn như IBM, Google...
Các Professional Certificate này liệt kê môn học theo thứ tự giúp mình không phải đau đầu chọn môn nào trước, môn nào sau.
Để học free, thì chỉ cần chọn Audit môn đó là có thể học free, nhưng không thể nộp bài, chấm điểm để tự đánh giá trình độ. Ngoài ra, do xem video rồi tự thực hành lại nên khó khăn hơn là học trên các web có công cụ chấm điểm thực hành tự động như DataCamp, Data Quest hay Code Academy.

ti…
timo

@timo
#340
Ưng 5
Mới xem được video khá hay cập nhật về tình hình việc làm của Data Scientist ở Mỹ. Năm 2020, số việc làm của DS không tăng, trong khi số người apply nhiều, dẫn đến việc DS từ hạng 1 rớt xuống hạng 3 trong Top những công việc tốt nhất ở Mỹ. Clip này còn liệt kê ngôn ngữ lập trình được tuyển nhiều nhất, kỹ năng được yêu cầu nhiều nhất, bang có nhiều job nhất... Mình có đối chiếu các yêu cầu này với thông báo tuyển dụng của các công ty lớn thì thấy khá trùng khớp.

Cho nên video này theo mình là rất hữu ích cho ai muốn tìm hiểu về DS, không biết phải học cái gì để đáp ứng yêu cầu tuyển dụng.


Bổ sung thêm báo cáo những công việc được tuyển nhiều trong 2020 của LinkedIn ở Mỹ, đọc báo cáo này khá thú vị vì liệt kê đúng những ngành hot nhất bây giờ ở Mỹ, những kỹ năng được yêu cầu nhiều nhất, những bang tuyển nhiều nhất.

Ai chọn AI, Data, Full Stack thì vẫn yên tâm là công việc vẫn đang hot. Ai chọn Data Engineering thì phải cập nhật thêm AWS vì đây là kỹ năng mới mà các công ty đều yêu cầu trước tình hình Cloud đang phát triển.
https://business.linkedin.com/conte...bs-report/Emerging_Jobs_Report_U.S._FINAL.pdf

o0…
o0TarZan0o

07/2007

@o0TarZan0o 07/2007
#347
Ưng 5
đang hí hoáy ngồi gõ sql bất chợt nghe vang vọng từ xa dân tình đang thảo luận sôi sổi, nào là ML, AI ... tối về mở lại film ex-machina càng thấy phấn khích hơn & muốn mình trở thành anh chàng Oscar Issac, lên web down về ngay quyển AI để vọc ngay cho nóng, cơ mà đời ko như mơ, vừa lướt qua được đoạn Intro là thấy đầu óc choáng váng với vô số kí hiệu lạ lẫm như đang nhảy múa trêu ngươi mình ...


??? ...

Ước chi ngày tôi còn cắp sách đến trường, Doraemon xuất hiện nhắc tôi biết tương lai AI sẽ thịnh nên chú tâm vào học, ước gì tôi vẫn còn gặp lại thầy giáo năm xưa để có thể được ngây dại hỏi về những bài tập ... ước gì ... à mà thôi tôi gõ sql tiếp đây, khách hàng đang thúc đít

da…
davinci1207

@davinci1207
#360
Ưng 11
Vàng quan điểm
Không biết ở đây có ai làm về Deep Learning mà rành về deploy bằng C++ không, em từng cố tránh mà có vẻ không chạy dc rồi
Thật ra hiểu bản chất rồi thì deploy cũng không khó. DL model giống như một đồ thị, node là toán tử và dữ liệu thì stream trên cạnh. Để deploy một models thì có vài vấn đề sau:

  • Graph computing framework (GCF): cái này hầu hết các ông lớn đã support: tensorflow, tensorRT, openvino, onnx runtime... Tất cả mấy framework này đều là GCF, user chỉ cần define graph, còn execute thế nào framework sẽ lo hết. Tất nhiên phải hiểu rõ cái model của mình, vì sau khi tính toán xong thì framework nó cũng chỉ output ra một tensor thôi, interpret cái tensor ấy thế nào để ra kết quả thì dev phải hiểu rõ model của mình rồi tự làm.
  • Định nghĩa đồ thị: Cái này đôi khi khá đau đầu. Định dạng đồ thị của mỗi framework là khác nhau, nên cần chuyển đổi qua lại (e.g. train = tensorflow, deploy = onnx). Thật ra mỗi framework đều support tool chuyển đổi (nếu đào sâu thì tự viết cũng được - dùng các package python như networkx, graphsurgeon để modify đồ thị). Tuy nhiên, vấn đề đau đầu nhất là cái sau đây.
  • Support operators: ví dụ train = tensorflow, deploy = tensorrt, nhưng có những operator support trong tensorflow nhưng không support trong tensorrt. Lúc ấy chỉ còn cách tự viết cái operator ấy (các framework hầu hết đều có một operator interface để user extend và tự định nghĩa operator). Viết một operator trên CPU thì còn đỡ, chứ để viết operator cho GPU thì đắng lắm. Hồi tôi đi học được A+ môn GPU programming mà tới giờ cũng chưa viết được cái nào ra hồn.

Sơ sơ thì để deploy một model thì là vậy. Phần serving thật ra cũng không khó lắm. Nếu dùng http thì C++ có boost.beast có thể dùng để parse http message khá ok. Dùng grpc thì còn đơn giản hơn nữa. Định nghĩa message rồi gen stub cho cả server lẫn client, không cần lo gì đến định dạng message. Cái tôi thấy khó nhất là:

  • Làm sao tận dụng tốt hardware: muốn tận dụng hết hardware để tăng throughput thì phải tăng batch size, tăng batch size thì lại làm tăng latency --> schedule thế nào cho hợp lý.
  • Làm sao để quản lý được model đang deploy: làm sao để measure độ chính xác, nếu cần update model thì phải làm thế nào... --> đây là cái đau đầu nhất.

Kết: nếu không phải bắt buộc thì thôi khỏi làm, cứ tìm hiểu rồi dùng tfserving ,torch serve ... rồi về lắp vào hệ thống, cần gì đặc biệt thì thêm thắt vào. Nếu làm embedded DL thì chắc chắn sẽ có framework của hardware vendor, đọc kỹ rồi dùng. Không có framework nào hoàn hảo ở thời điểm này cả, nên chắc chắn sẽ có lỗi. DL mới nổi được khoảng chục năm, nên phải xác định sống chung với lũ thôi.

ti…
timo

@timo
#365
Ưng 10
Vàng quan điểm
Vừa xem được cái series hướng dẫn của anh Ấn Độ cho ngành Data Engineering, anh này pass phỏng vấn của Amazon (6 vòng) và kinh nghiệm cũng nhiều, nếu phát âm khó nghe thì đọc phụ đề cũng được.


Đây là roadmap những kiến thức mà một data Engineering cần có. Xem xong mà hoảng quá. Để học đủ 13 mảng kiến thức này chắc mất hết 4 năm đại học. Mấy anh Ấn Độ cày bừa kinh thật.


Hai project cá nhân mà anh này làm và dùng để khoe trong 6 vòng phỏng vấn với Amazon. Project 1 là lập data về số ca nhiễm COVID và project 2 là thống kê các tweet về vaccine. Anh này có giải thích cách làm từng project, từ việc tải file trên GitHub, cho đến cài đặt và triển khai như thế nào. Cái này có ích cho ai không có ý tưởng và không biết thực hiện một project về data như thế nào.


Đây là video kể về 6 vòng phỏng vấn với Amazon, chỉ có vòng 5, 6 là hỏi về hành vi, không có liên quan đến kỹ thuật. Các vòng khác đều hỏi một câu kỹ thuật SQL và một câu giải thuật.

Lu…
Luc Lam

06/2021

@Luc Lam 06/2021
#403
Ưng 6
Sau khi đọc hết 21 pages của topic này có 1 điều tôi muốn chia sẽ 1 chút về DA.
Có rất nhiều comment xếp hạng và phân loại công việc DA có phần chiếu dưới thậm chí là easy.
Nhưng thực tế thì ngược lại, trừ khi công việc nó quá thuần túy là reporting only. Còn 1 khi đã dính đến insight - brainstorm, thì đòi hỏi rất nhiều bao gồm cả domain knowledge có khi không chỉ của công ty mà còn bao gồm của thị trường. Nhất là độ nhạy bén (điều mà gần như là 1 yếu tố mang tính thiên phú hơn là kỹ năng).

1 câu chuyện thực tế tôi đã trải qua ở 1 công ty tài chính tôi từng làm. Họ ký contract với McKinsey (top 3 global) để predict số về cuối tháng, sau 1 năm kết quả vẫn trật. Thú vị là con số này lại được các bạn team DA tính rất chuẩn (sai số chỉ là con số thuộc hàng thứ 2 sau dấu '.'). Đến mức consultant bên đó phải xuống và hỏi về giải thuật và model đang dùng là gi ? Và tôi nghĩ câu trả lời sẽ khiến nhiều bạn cảm thấy bối rối: chỉ dùng excel và xstk, không có model gì cả.

Bên cạnh, đó là lời chia sẽ thật lòng của một người thuộc hàng C mà tôi có dịp trao đổi riêng. Top có thể không hiểu technical nhưng họ rất hiểu số và cực nhạy trong vấn đề này. Không nhiều người trong hàng ngũ đó lại không biết về số hay nói cách khác là công việc của 1 DA như chị ấy cũng đã từng trải qua.

Nghe có vẻ hơi dìm DS và DE nhưng tôi nghĩ các bạn nên lắng nghe thêm góc nhìn từ người đi trước để có cái nhìn khách quan hơn.

Bản thân tôi đánh giá mức quan trọng của DE/DA/DS đều ngang nhau mỗi cái đều có cái mạnh riêng. Như DE mà làm không tốt, data toàn rác qua DA với DS có mà ói máu đi dọn.

Cuối cùng là việc có bạn thắc mắc vì sao họ lại hay ăn xổi ? Theo tôi lý do khá đơn giản, khi bỏ tiền đầu tư họ sẽ phải tính toán rất nhiều thứ, trong đó quan trọng nhất là tỷ suất sinh lợi. Điều mà nếu bạn không prove được phương án của bạn đem lại là option tốt nhất thì các top level sẽ dẹp bỏ là chuyện bình thường. Vì quy cho cùng, business là tiền.

ng…
ngon_gio_yeu_thuong

09/2012

@ngon_gio_yeu_thuong 09/2012
#618
Ưng 4
hi bác, chỗ a/b testing mình thấy ở vn hình như ngoại trừ bên tiki là có a/b testing platform do một bác người nga lead làm bài bản thì hầu như các công ty khác chỉ là a/b testing khá đơn giản và adhoc, mình thấy khá lạ vì các công ty internet company lớn như gg fb netflix. tiktok họ đều build một a/b testing rất lớn dùng cho nhiều team khác nhau với đủ loại test/ metric tùy theo nhu cầu.

Vụ này tại sao bác nhỉ, ví dụ giờ build một platform a/b test thì nên tự làm hay dùng mấy thằng như optimizely ( chắc bác biết thằng này)

A/B test platform thì với sản phẩm lớn nên là in-house, vì có nhiều nhu cầu phát sinh cần custom và tích hợp logic của sản phẩm. Ở VN mình nghĩ chỉ nên các sản phẩm Product có lượng người dùng lớn thì phát triển A/B test (Zalo,Lazada...) sẽ phù hợp, còn nếu ở quy mô nhỏ bạn tách control/treatment theo uid + phân tích adhoc cũng đc vì số lượng test chạy song song ko quá nhiều. Ở bên mình thì A/B test platform là một trong những mảng chính để đo đếm thuật toán độ hiệu quả (giữa các version hoặc baseline / random /feature off) và monitoring data drift, concept drift.