Category: BigData

  • Ứng dụng AI, Bigdata trong theo dõi, phát hiện và phòng chống dịch bệnh do virus Corona

    [et_pb_section fb_built=”1″ admin_label=”section” _builder_version=”3.22″][et_pb_row admin_label=”row” _builder_version=”3.25″ background_size=”initial” background_position=”top_left” background_repeat=”repeat”][et_pb_column type=”4_4″ _builder_version=”3.25″ custom_padding=”|||” custom_padding__hover=”|||”][et_pb_text admin_label=”Text” _builder_version=”3.27.4″ background_size=”initial” background_position=”top_left” background_repeat=”repeat” hover_enabled=”0″]

    Với sự bùng phát hiện nay, liên quan đến một loại coronavirus có nguồn gốc từ Vũ Hán và đến nay đã khiến gần 14.590 người nhiễm bệnh, 305 người chết và xuất hiện ở 28 quốc gia và vùng lãnh thổ (Các số liệu cập nhật liên tục), đây là một loại dịch bên mà tổ chức y tế thế giới WHO đã tuyên bố tình trạng khẩn cấp vào 31/01/2020 vừa qua. Chính vì sự nguy hiểm và sức ảnh hưởng của loại virus này làm cho người dân đều hoang mang lo lắng, không chỉ ở tâm điểm TQ, anh hàng xóm VN hay người Mỹ mà là toàn cầu. Trong bài viết này, cập nhật một số thông tin hữu ích mà việc ứng dụng CNTT trong việc theo dõi, phát hiện và phòng chống dịch bệnh do virus Corona, (không phải phương pháp trị liệu hay ngăn chặn được virus).

     

    Trực quan hóa dữ liệu tình hình dịch bệnh

    Đầu tiên là sử dụng dữ liệu để hiện thị thông tin tình hình dịch bệnh liên tục, tức thời và trực quan (Data Visualization). Dữ liệu được sử dụng để thông báo cho công cụ được rút ra từ nhiều nguồn khác nhau. Thông tin được thu thập chính từ các tổ chức như WHO và Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC), China CDC, ECDC. Đối với nội bộ quốc gia, dữ liệu được thu thập từ các cơ quan chức năng và sở y tế tương ứng.

    Dữ liệu này thể hiện các vòng tròn biểu thị các khu vực bị nhiễm trùng được xác nhận theo quốc gia/tỉnh/bang. Bạn có thể nhấp vào từng người để nhận được một số bệnh nhiễm trùng, tử vong và phục hồi. Các bảng nhỏ hơn bao quanh bản đồ với dữ liệu bổ sung như danh sách các khu vực được tổ chức từ hầu hết các trường hợp ít nhất, biểu đồ nhiễm trùng theo thời gian và danh sách tất cả các quốc gia nơi coronavirus đã tấn công. Ví dụ Nhấp vào California, và bạn sẽ thấy hai trường hợp được xác nhận. Số người chết và hồi phục cũng được theo dõi.Bảng điều khiển được thiết kế để cung cấp cho công chúng hiểu về tình hình dịch bệnh khi nó diễn ra, với các nguồn dữ liệu minh bạch, CSS CSSE cho biết trong một thông báo được đăng trên trang web của mình.

    Tất nhiên, số trường hợp thực sự là không thể biết, nhưng bảng điều khiển ít nhất cung cấp dữ liệu đáng tin cậy cho các trường hợp được báo cáo và có thể chỉ ra xu hướng và điểm nóng cho coronavirus.

    Hiện tại có rất nhiều nguồn để có thể theo dõi trực tuyến dạng hiển thị bảng đồ tình hình dịch bệnh này:

    https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6

    https://www.coronatracker.com/analytics

    https://corona.kompa.ai/

     

     

     

    Dưới đây là câu chuyện chủ động xây dựng bảng điều khiển theo dõi coronavirus (2019-nCoV) bằng Phân tích dữ liệu của CoronaTracker.com

     

     

    Sự bùng nổ của dịch bệnh cũng đã tạo ra vô số những tin tức chưa được xác minh hoặc giả mạo được chia sẻ trên phương tiện truyền thông xã hội chỉ làm cho tình hình tồi tệ hơn bằng cách gây hoang mang cho công chúng. Thay vì ngồi không, Giám đốc điều hành LEAD, Tiến sĩ Lau Cher Han quyết định đi theo con đường chủ động để thành lập một nhóm tình nguyện viên, bao gồm các chuyên gia CNTT, nhà khoa học dữ liệu, chuyên gia chăm sóc sức khỏe và công chúng quan tâm để xây dựng một công cụ ứng dụng web giúp công chúng theo dõi sự phát triển của coronavirus chết người 2019-nCov trong thời gian thực.

    Tên miền CoronaTracker.com đã được đăng ký một ngày trước lễ kỷ niệm năm mới của Trung Quốc. Tiến sĩ Lau sau đó đã thành lập một nhóm công khai trên Telegram, mời các tình nguyện viên trên Facebook tham gia và giúp xây dựng công cụ – theo phương pháp Hackathon. Chỉ riêng ngày đầu tiên, hơn 100 tình nguyện viên đến từ Malaysia, Úc, Nhật Bản, Philippines, Singapore, Đài Loan, Hoa Kỳ và các quốc gia khác đã tham gia kêu gọi vũ khí để làm việc trên CoronaTracker.com.

    Chỉ trong một ngày, hàng trăm tình nguyện viên đã viết ra những ý tưởng và kế hoạch của họ trên bảng Trello.

     

    Sử dụng khung OSEMN trong khoa học dữ liệu, dự án đã khởi động với việc thu thập, làm sạch, thăm dò dữ liệu, tiếp theo là mô hình hóa và có dữ liệu được trình bày dưới dạng trực quan trên trang web. Các trang web phế liệu được xây dựng bằng Python và BeautifulSoup, để tin tức từ các trang web được công nhận và có thẩm quyền, bao gồm các trang web trình bày dữ liệu về sự lây lan của coronavirus.

    Mục tiêu tính khả dụng của CoronaTracker.com là trở thành một công cụ tổng hợp tin tức tóm tắt tin tức từ các đầu ra được công nhận và có thẩm quyền, sử dụng các phương pháp khoa học dữ liệu, như NLP (xử lý ngôn ngữ tự nhiên) để phân tích nội dung và xác định các chủ đề có ý nghĩa. Sử dụng AWS làm nền tảng để lưu trữ các mẩu tin lưu niệm, API web và trang web, phần đầu của CoronaTracker.com được xây dựng với Vue.js và phần phụ trợ với Node.Js và ExpressJS – với sự giúp đỡ của một số tình nguyện viên là nhà phát triển Full Stack và các nhà thiết kế UI / UX. Một hồ dữ liệu đã được triển khai để kết xuất dữ liệu thô và sử dụng MySQL, dữ liệu thô được chuyển đổi thành dữ liệu có cấu trúc để trình bày.

    Đến cuối 2 ngày, trang web đã hoạt động và hơn 11.000 người đã sử dụng nền tảng này để theo dõi sự phát triển của coronavirus trên toàn thế giới và trong khu vực của họ.Trang chủ của CoronaTracker.com là nơi bạn có thể tìm thấy các bài báo đáng tin cậy. Mỗi bài viết được liệt kê ở đây cũng được lọc bởi một nhóm tình nguyện viên trong số họ, các nhà khoa học dữ liệu và chuyên gia y tế.

    Bạn cũng có thể lọc các trung tâm tin tức, phân tích và sàng lọc theo quốc gia và tiểu bang, để tìm hiểu thêm về sự phát triển trong khu vực của bạn.Một tính năng chính của CoronaTracker.com là bảng điều khiển phân tích thời gian thực, nơi nó có dữ liệu quan trọng và biểu diễn trực quan của họ bao gồm tổng số trường hợp được xác nhận, tổng số người chết, thời gian bùng phát và các quốc gia bị ảnh hưởng bởi dịch.

    Bảng điều khiển phân tích trực quan hóa sự phát triển trên Coronavirus 2019-nCov trong thời gian gần. Dữ liệu cho bảng điều khiển chủ yếu được lấy từ CDC, JHU, Tencent và nhiều hơn nữa. Mặc dù cũng tồn tại các trang web theo dõi khác, nhưng CoronaTracker tiến thêm một vài bước để theo dõi sự phá vỡ của coronavirus theo thời gian.

    Điều gì tiếp theo trong kế hoạch?

    Tại thời điểm viết bài này, việc tinh chỉnh nhiều hơn đang được thực hiện cho CoronaTracker.com, để loại bỏ nhiều dữ liệu hơn từ các trang web có địa phương khác nhau, chẳng hạn như các trang web của Trung Quốc và để thêm nhiều tính năng hơn vào trang web, như bản đồ vị trí của các trường hợp hiện tại.

    Một ứng dụng di động cho công chúng nhận thông báo đẩy thời gian thực trên bản cập nhật cũng đang được tiến hành.

    Bạn muốn đóng góp có thể tham gia vào nhóm coronatracker trên telegram: CoronaTracker Telegram Group

    Bạn có thể truy cập dữ liệu bị loại bỏ để thực hiện phân tích hoặc dự đoán của riêng mình tại đây: CoronaTracker Analytics on Github

     

    Các công ty công nghệ Trung Quốc, sử dụng dữ liệu lớn để phân tích về xu hướng di cư trong nước

     

    Điển hình là Baidu Maps, người dân có thể truy cập và theo dõi tình hình xu hướng di cư, dựa trên các thiết bị cầm tay, máy tính bắt nguồn từ trung tâm nơi phát hiện nhiễm nặng đặc biệt là Vũ Hán ở tỉnh Hồ Bắc của Trung Quốc, Ngoài ra, Baidu Maps cung cấp các thông báo theo thời gian thực về các mẹo du lịch và đóng cửa đường đi, cũng như cho phép người dùng ở hơn 200 thành phố tìm kiếm các phòng khám sốt gần đó.

    Tương tự, công ty lập bản đồ AutoNavi cũng cho phép các phòng khám sốt gần đó có thể dễ dàng kiểm tra và cung cấp thông tin rộng rãi về virus. Người ta cũng dễ dàng tìm thấy sự nhấn mạnh đặc biệt về virus trên trang chủ của Alipay, giải pháp thanh toán di động phổ biến của Alibaba, cung cấp cho người dùng dữ liệu thời gian thực về virus, cổng vào dịch vụ giao hàng thực phẩm và mua sắm, trong số các dịch vụ di động khác giúp mọi người vượt qua khó khăn thời gian.

    Trong các trường hợp khác về góc độ công nghệ trong cuộc chiến coronavirus, gần đây, Baidu đã tuyên bố rằng nền tảng cuộc gọi đi thông minh của họ đã được mở tự do cho chính quyền các cấp, cơ quan ủy ban y tế, cộng đồng dân cư và trung tâm phòng chống dịch bệnh bắt đầu từ thứ Hai cho đến khi kết thúc sự bùng nổ. Nền tảng cuộc gọi có tính năng lọc dòng người di cư và cư dân địa phương và đưa ra thông báo cho các nhóm người được chỉ định và được cho là hiệu quả hơn nhiều so với các cuộc gọi điện thoại của người dân.

     

     

     

     

     

     

    Sử dụng AI (trí thông minh nhân tạo) một công cụ hữu ích trong đợt bùng phát toàn cầu.

    Trí thông minh nhân tạo sẽ không ngăn chặn được coronavirus mới hoặc thay thế vai trò của các nhà dịch tễ học chuyên gia. Nhưng lần đầu tiên trong một đợt bùng phát toàn cầu, nó đang trở thành một công cụ hữu ích trong nỗ lực theo dõi và ứng phó với khủng hoảng, theo các chuyên gia dữ liệu y tế.Trong các đợt bùng phát trước, AI cung cấp giá trị hạn chế, vì thiếu dữ liệu cần thiết để cung cấp cập nhật nhanh chóng.

    Nhưng trong những ngày gần đây, hàng triệu bài đăng về coronavirus trên các trang mạng xã hội và tin tức đang cho phép các thuật toán tạo ra thông tin gần như thời gian thực cho các quan chức y tế công cộng theo dõi sự lây lan của nó.Lĩnh vực đã phát triển vượt bậc, John Brownstein, một nhà dịch tễ học tính toán tại Bệnh viện nhi Boston, người điều hành một trang web giám sát sức khỏe cộng đồng gọi là Healthmap.org sử dụng AI để phân tích dữ liệu từ các báo cáo của chính phủ, phương tiện truyền thông xã hội, các trang tin tức khác.

    Trong thời gian SARS, không có một lượng thông tin khổng lồ nào xuất phát từ Trung Quốc, ông nói, đề cập đến một đợt bùng phát coronavirus năm 2003 xuất hiện từ Trung Quốc, lây nhiễm hơn 8.000 người và giết chết gần 800. Hiện tại, chúng tôi ‘ liên tục khai thác tin tức và phương tiện truyền thông xã hội.

    Brownstein nhấn mạnh rằng AI của ông không nhằm thay thế công việc thu thập thông tin của các nhà lãnh đạo y tế công cộng, mà là để bổ sung cho những nỗ lực của họ bằng cách biên soạn và lọc thông tin để giúp họ đưa ra quyết định trong những tình huống thay đổi nhanh chóng.

    Chúng tôi sử dụng máy học để cạo tất cả thông tin, phân loại thông tin, gắn thẻ và lọc nó – và sau đó thông tin đó được chuyển đến các đồng nghiệp của chúng tôi tại WHO, những người đang xem xét thông tin này cả ngày và đánh giá, ông Brown Brown nói.

    Vẫn còn có thách thức trong việc phân tích cú pháp xem một số thông tin đó có ý nghĩa hay không. Những công cụ giám sát AI này đã có sẵn trong y tế công cộng trong hơn một thập kỷ, nhưng những tiến bộ gần đây trong học máy, kết hợp với tính khả dụng của dữ liệu lớn hơn, đang khiến chúng trở nên mạnh mẽ hơn nhiều. Họ cũng cho phép sử dụng vượt ra ngoài sự giám sát cơ bản, để giúp các quan chức dự đoán chính xác hơn về mức độ lây lan nhanh và lan rộng như thế nào, và loại người nào có khả năng bị ảnh hưởng nhất.

    Don Woodlock, phó chủ tịch của InterSystems, một nhà cung cấp sức khỏe điện tử toàn cầu cho biết, máy học rất tốt trong việc xác định các mẫu trong dữ liệu, chẳng hạn như các yếu tố rủi ro có thể xác định mã zip hoặc đoàn hệ của những người có liên quan đến virus. hồ sơ đang giúp các nhà cung cấp ở Trung Quốc phân tích dữ liệu về bệnh nhân coronavirus.

    Khi các phương pháp điều trị khác nhau được thử nghiệm, ông nói thêm, chúng tôi cũng có thể sử dụng máy học để xác định những gì có thể làm việc với virus.Vẫn còn quá sớm để bùng phát những loại phân tích đó, nhưng các công cụ AI có thể giúp đẩy nhanh nghiên cứu đó một khi có thêm dữ liệu.

    Tác động thực sự của AI trong việc đối phó với sự bùng phát của coronavirus có lẽ sẽ không được biết đến trong vài năm.Brownstein cho biết những nỗ lực khai thác sức mạnh của AI để dự đoán tiến trình của bệnh – và quy mô của tác động – đang diễn ra với tốc độ chóng mặt. Các nhóm trên toàn quốc đang phát triển các mô hình lây lan (của coronavirus) trong nước và quốc tế, theo ông, thêm rằng Healthmap.org đang hợp tác với một công ty khởi nghiệp ở Boston có tên Buoy Health để xây dựng một công cụ kiểm tra triệu chứng để đánh giá các triệu chứng của coronavirus. phân biệt với cúm theo mùa.

    Điều đó hứa hẹn sẽ là một thách thức lớn đối với các quan chức y tế công cộng trong những tháng tới, khi họ làm việc để phân bổ các nguồn lực để chứa virus và quản lý một loạt các trường hợp có thể đến các phòng cấp cứu. Chúng tôi càng tập trung vào các nỗ lực can thiệp, xác định các trường hợp càng sớm càng tốt và cách ly những trường hợp đó, chúng tôi càng có cơ hội hạn chế tác động toàn cầu của loại virus này, ông Brown Brownstein nói.

    Làm thế nào BlueDot dự đoán coronavirus sử dụng trí tuệ nhân tạo (AI)?

    Trong thời gian bùng phát virus mà Trung Quốc và các quốc gia khác đang phải đối mặt, thời gian là điều cốt yếu. Cảnh báo càng sớm, cơ hội để ngăn chặn sự lây lan càng tốt.Tuy nhiên, một vấn đề là các chính phủ đôi khi tỏ ra thận trọng khi chia sẻ thông tin.

    Đó là trường hợp vào năm 2002 và 2003, khi chính quyền Trung Quốc bị buộc tội che đậy dịch SARS mà cuối cùng đã cướp đi hơn 740 mạng sống trên khắp thế giới.Nhưng ngay cả khi Bắc Kinh cung cấp ít thông tin hơn, thế giới hiện có các công cụ thông tin tốt hơn theo cách của nó so với 17 năm trước. Một được cung cấp bởi Bluedot, một công ty khởi nghiệp ở Toronto có nền tảng theo dõi sức khỏe do AI điều khiển phân tích hàng tỷ điểm dữ liệu.

    Ra mắt vào năm 2014, liên doanh đã cảnh báo khách hàng của mình về sự bùng phát vào ngày 31 tháng 12, trước các thông báo từ Tổ chức Y tế Thế giới và Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ.Công ty nói rằng nó sử dụng các phân tích dữ liệu lớn để theo dõi và dự đoán sự lây lan của các bệnh truyền nhiễm nguy hiểm nhất thế giới. Tháng 8 vừa qua, họ đã công bố một vòng đầu tư mang lại tổng kinh phí lên tới khoảng 10 triệu đô la.

    Bluedot sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên và máy học để sàng lọc thông qua các báo cáo tin tức toàn cầu, dữ liệu hàng không và báo cáo về dịch bệnh động vật, như được mô tả bởi Wired. Các nhà dịch tễ học xem xét các kết quả tự động, và nếu mọi thứ kiểm tra, công ty sẽ gửi thông báo cho khách hàng của mình trong các lĩnh vực công cộng và tư nhân.BlueDot cố gắng theo dõi và di chuyển thông tin nhanh hơn căn bệnh có thể di chuyển. Nó đã dự đoán chính xác nơi bên ngoài Trung Quốc đại lục, virus Vũ Hán sẽ hạ cánh tại Bangkok Bangkok, Seoul, Đài Bắc, Tokyo, ngay sau khi xuất hiện lần đầu.Người sáng lập công ty Kamran Khan nói với báo chí Canada, một mặt, thế giới đang thay đổi nhanh chóng, nơi bệnh tật đang nổi lên và lan nhanh hơn. Mặt khác, chúng tôi tình cờ có quyền truy cập dữ liệu ngày càng tăng, chúng tôi có thể sử dụng LỚN để tạo hiểu biết và lan truyền chúng nhanh hơn các bệnh lây lan. 

    AI là tương lai của chăm sóc sức khỏe 

    Rõ ràng là AI và các kỹ thuật Machine Learning chắc chắn sẽ là tương lai của ngành chăm sóc sức khỏe và có thể phá vỡ ngành công nghiệp mãi mãi. Theo Frost & Sullivan, các hệ thống AI được dự đoán là ngành công nghiệp trị giá 6 tỷ đô la vào năm 2021.

    Một nghiên cứu gần đây của McKinsey đã dự đoán chăm sóc sức khỏe là một trong 5 ngành công nghiệp hàng đầu với hơn 50 trường hợp sử dụng có liên quan đến AI và hơn 1 tỷ USD tăng vốn chủ sở hữu khởi nghiệp.AI trong chăm sóc sức khỏe về cơ bản sẽ tác động đến 3 khía cạnh chính của chăm sóc sức khỏe – Bệnh nhân, Bác sĩ và Quản trị / Hoạt động. Mặc dù các công cụ và bot AI sẽ được triển khai ở mọi cấp độ trong hành trình y tế của bệnh nhân, nhưng đó là tác động tổng thể mà nó sẽ làm cho điều đó thực sự sẽ phá vỡ ngành công nghiệp.

    AI sẽ liên tục tập hợp tất cả các hồ sơ trong quá khứ của một bệnh nhân, cùng với những hiểu biết, sử dụng dữ liệu đó để chẩn đoán, lần lượt điều trị và cuối cùng là duy trì sức khỏe.Kết lại: Khi thế giới thay đổi nhanh chóng, những căn bệnh này đang nổi lên và lan rộng với tốc độ nhanh.

    Tuy nhiên, với các công cụ AI và phần mềm khác nhau, việc truy cập dữ liệu tăng lên có thể được sử dụng tốt. Sự gia tăng đáng kể của dữ liệu có thể được sử dụng để tạo ra những hiểu biết quan trọng và lần lượt hành động dựa trên chúng do đó truyền bá tin tức sớm hơn và nhanh hơn căn bệnh có thể tự lan truyền.

    Nguồn tin tổng hợp – Team dịch #ITAN

     

    [/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]
  • WALMART: Làm thế nào dữ liệu lớn được sử dụng để tăng hiệu suất siêu thị?

    Walmart là nhà bán lẻ lớn nhất thế giới và là công ty lớn nhất thế giới về doanh thu, với hơn hai triệu nhân viên và 20.000 cửa hàng tại 28 quốc gia. Với các hoạt động ở quy mô này, không có gì ngạc nhiên khi họ đã nhận thấy giá trị trong phân tích dữ liệu từ lâu. Vào năm 2004, khi cơn bão Sandy tấn công vào Hoa Kỳ, họ đã phát hiện ra rằng những hiểu biết bất ngờ có thể được đưa ra ánh sáng khi dữ liệu được nghiên cứu một cách tổng thể, thay vì các bộ riêng lẻ. Cố gắng dự báo nhu cầu cung cấp khẩn cấp khi đối mặt với cơn bão Sandy đang đến gần, CIO Linda Dillman đã đưa ra một số thống kê đáng ngạc nhiên. Như là đèn pin và các thiết bị khẩn cấp, dự báo thời tiết xấu đã dẫn đến sự gia tăng doanh số của bánh Pop-Tarts dâu tây ở một số địa điểm khác. Nguồn cung bổ sung trong số này đã được gửi đến các cửa hàng trong phạm vi đường đi của cơn bão Frances năm 2012 và được bán cực kỳ tốt.

    Walmart đã phát triển bộ phận Phân tích và Dữ liệu Lớn của họ một cách đáng tin cậy kể từ đó, liên tục duy trì đỉnh cao. Năm 2015, công ty tuyên bố họ đang trong quá trình tạo ra đám mây dữ liệu riêng lớn nhất thế giới, để cho phép xử lý 2,5 petabyte thông tin mỗi giờ.

    Dữ liệu lớn giúp giải quyết vấn đề gì?

    Siêu thị bán hàng triệu sản phẩm cho hàng triệu người mỗi ngày. Nó là một ngành công nghiệp cạnh tranh khốc liệt mà các nước phát triển dựa vào để cung cấp cho dân cư những nhu yếu phẩm hàng ngày. Các siêu thị cạnh tranh không chỉ về giá mà còn về dịch vụ khách hàng và tính tiện lợi. Có đúng sản phẩm ở đúng nơi, đúng thời điểm, vì vậy những người phù hợp có thể mua chúng, cung cấp những vấn đề hậu cần rất lớn. Các sản phẩm phải có giá phù hợp đến từng xu, để duy trì tính cạnh tranh. Và nếu khách hàng thấy họ không thể có được mọi thứ họ cần trong một cửa hàng, họ sẽ tìm nơi nào khác để mua sắm phù hợp hơn với lịch trình bận rộn của họ.

    Làm thế nào để dữ liệu lớn ứng trong thực tiễn?

    Vào năm 2011, với nhận thức ngày càng tăng về cách sử dụng dữ liệu để hiểu nhu cầu của khách hàng và cung cấp cho họ các sản phẩm họ muốn mua, Walmart đã thành lập @WalmartLabs và Đội “Fast Big Data Team” của họ để nghiên cứu và triển khai các sáng kiến dẫn đầu dữ liệu mới trên toàn doanh nghiệp.

    Đỉnh cao của chiến lược này được gọi là Data Cafe, một trung tâm phân tích hiện đại tại các trụ sở của Bentonville, Arkansas. Tại Data Cafe, nhóm phân tích có thể theo dõi 200 luồng dữ liệu bên trong và bên ngoài theo thời gian thực, bao gồm cơ sở dữ liệu 40 petabyte của tất cả các giao dịch bán hàng trong những tuần trước.

    Phân tích kịp thời dữ liệu thời gian thực được coi là chìa khóa để thúc đẩy hiệu quả kinh doanh. Naveen Peddamail – Nhà phân tích thống kê cấp cao của Walmart – nói: Nếu bạn không thể hiểu rõ hơn cho đến khi bạn phân tích doanh số của bạn trong một tuần hoặc một tháng, thì bạn đã mất doanh số trong thời gian đó. Mục tiêu của chúng tôi là luôn luôn có được thông tin cho các đối tác kinh doanh của chúng tôi nhanh nhất có thể, để họ có thể hành động và cắt giảm thời gian quay vòng. Đó là phân tích chủ động và phản ứng. 

    Các nhóm từ bất kỳ bộ phận nào của doanh nghiệp được mời đến thăm Data Cafe với các vấn đề về dữ liệu của họ và làm việc với các nhà phân tích để đưa ra giải pháp. Ngoài ra còn có một hệ thống theo dõi các chỉ số hiệu suất trên toàn công ty và kích hoạt cảnh báo tự động khi họ đạt đến một mức nhất định – mời các nhóm chịu trách nhiệm nói chuyện với nhóm dữ liệu về các giải pháp có thể.

    Peddamail đưa ra một ví dụ về một đội tạp hóa đang gặp khó khăn để hiểu tại sao doanh số bán các sản phẩm cụ thể được giảm bất ngờ. Một khi dữ liệu của họ nằm trong tay các nhà phân tích của Data Cafe, họ rất nhanh chóng nhận ra rằng sự suy giảm đó có liên quan trực tiếp đến lỗi về định giá. Lỗi ngay lập tức được khắc phục và doanh số phục hồi trong vòng vài ngày.

    Bán hàng trên các cửa hàng khác nhau trong các khu vực địa lý khác nhau cũng có thể được theo dõi trong thời gian thực. Một mùa Halloween, Peddamail nhớ lại, số liệu bán bánh quy mới đang được theo dõi, khi các nhà phân tích thấy rằng có một số địa điểm mà họ không bán được. Điều này cho phép họ kích hoạt cảnh báo cho các nhóm bán hàng có trách nhiệm đối với các cửa hàng đó, những người nhanh chóng nhận ra rằng các sản phẩm thậm chí còn chưa được đưa lên kệ. Không hẳn là một thuật toán phức tạp, nhưng nó sẽ không thể thực hiện được nếu không có các phân tích thời gian thực.

    Một sáng kiến ​​khác là Dự án “Walmart ’s Social Genome” , chuyên về các cuộc trò chuyện trên phương tiện truyền thông xã hội công cộng và cố gắng dự đoán những sản phẩm mà mọi người sẽ mua dựa trên các cuộc trò chuyện của họ. Họ cũng có dịch vụ Shopycat, dự đoán thói quen mua sắm của mọi người bị ảnh hưởng bởi bạn bè của họ (sử dụng lại dữ liệu truyền thông xã hội) và đã phát triển công cụ tìm kiếm của riêng họ, có tên Polaris, để cho phép họ phân tích các cụm từ tìm kiếm được khách hàng nhập vào trang web.

    Kết quả là gì?

    Walmart cho biết rằng hệ thống Data Cafe, đã dẫn đến việc giảm thời gian từ một vấn đề được phát hiện trong các con số, thành một giải pháp được đề xuất từ ​​trung bình từ hai đến ba tuần xuống còn khoảng 20 phút.

    Dữ liệu sử dụng để làm gì?

    Dữ liệu “Data Cafe” sử dụng cơ sở dữ liệu được làm mới liên tục bao gồm 200 tỷ hàng dữ liệu giao dịch – và đó chỉ đại diện cho vài tuần gần đây nhất của doanh nghiệp!

    Trên hết, nó lấy dữ liệu từ 200 nguồn khác, bao gồm dữ liệu khí tượng, dữ liệu kinh tế, dữ liệu viễn thông, dữ liệu truyền thông xã hội, giá xăng và cơ sở dữ liệu về các sự kiện diễn ra trong khu vực lân cận các cửa hàng Walmart.

    Các chi tiết kỹ thuật là gì?

    Cơ sở dữ liệu giao dịch thời gian thực của Walmart , bao gồm 40 petabyte dữ liệu. Mặc dù khối lượng dữ liệu giao dịch này rất lớn, nhưng nó chỉ bao gồm từ dữ liệu của những tuần gần đây nhất, vì đây là nơi mà giá trị, theo như phân tích thời gian thực, được tìm thấy. Dữ liệu từ các cửa hàng của chuỗi, các bộ phận trực tuyến và các đơn vị công ty được lưu trữ tập trung trên Hadoop (một hệ thống lưu trữ dữ liệu và quản lý dữ liệu phân tán).

    CTO Jeremy King đã mô tả phương pháp này là “dữ liệu dân chủ” như mục đích là để làm cho nó có sẵn cho bất cứ ai trong doanh nghiệp có thể tận dụng nó. Tại một số thời điểm sau khi áp dụng khung Hadoop phân tán vào năm 2011, các nhà phân tích đã lo ngại rằng khối lượng dữ liệu đang phát triển với tốc độ có thể cản trở khả năng phân tích của họ. Do đó, chính sách quản lý thu thập dữ liệu thông minh của người dùng đã được áp dụng, bao gồm thiết lập một số hệ thống được thiết kế để tinh chỉnh và phân loại dữ liệu trước khi được lưu trữ. Các công nghệ khác đang được sử dụng bao gồm Spark, Cassandra, ngôn ngữ R, SAS được sử dụng để phát triển các ứng dụng phân tích.

    Bất kỳ thử thách nào cũng đều vượt qua?

    Với một hoạt động phân tích đầy tham vọng như kế hoạch của Walmart, việc mở rộng nhanh chóng đòi hỏi một lượng lớn nhân viên mới và việc tìm đúng người với các kỹ năng phù hợp tỏ ra khó khăn. Vấn đề này không được giới hạn ở Walmart: một cuộc khảo sát gần đây của các nhà nghiên cứu Gartner cho thấy hơn một nửa doanh nghiệp cảm thấy khả năng thực hiện phân tích Dữ liệu lớn của họ bị cản trở bởi khó khăn trong việc tìm kiếm tài năng phù hợp.

    Một trong những phương pháp tiếp cận Walmart đã giải quyết vấn đề này là để chuyển sang cuộc thi trên trang web Kaggle – do cộng đồng các nhà khoa học dữ liệu đóng góp.

    Kaggle đặt cho người dùng trang web một thách thức liên quan đến việc dự đoán các sự kiện quảng cáo và theo mùa như bán hàng và giải phóng mặt bằng sẽ ảnh hưởng đến doanh số của một số sản phẩm khác nhau. Những người đã đưa ra các mô hình phù hợp nhất với dữ liệu thực tế do Walmart thu thập được mời để ứng tuyển vào các vị trí trong nhóm khoa học dữ liệu. Trên thực tế, một trong những người thấy mình làm việc cho Walmart sau khi tham gia cuộc thi là Naveen Peddamail, người mà được đề cập vào phần trên.

    Khi một nhà phân tích mới bắt đầu tại Walmart, họ được đưa vào Chương trình “Analytics Rotation”, cho phép họ chuyển qua từng nhóm khác nhau, chịu trách nhiệm về công việc phân tích, để có được cái nhìn tổng quan về cách phân tích được sử dụng trên toàn doanh nghiệp.

    Nhà tuyển dụng cao cấp của Walmart, Mandar Thakur nói: Cuộc thi Kaggle đã tạo ra một tiếng vang về Walmart và tổ chức phân tích của chúng tôi. Mọi người luôn biết Walmart đã tạo ra và có rất nhiều dữ liệu, nhưng phần hay nhất là điều này cho mọi người thấy cách chúng tôi sử dụng nó một cách chiến lược. 

    Các điểm chính & học tập được là gì?

    Các siêu thị là các doanh nghiệp lớn, nhanh, liên tục thay đổi, phức tạp, nhiều hệ thống rời rạc, là một doanh nghiệp lý tưởng để áp dụng phân tích Dữ liệu lớn.

    Thành công trong kinh doanh được thúc đẩy bởi sự cạnh tranh. Walmart luôn dẫn đầu trong các sáng kiến dựa trên dữ liệu, chẳng hạn như các chương trình trung thành và khen thưởng, và bằng cách hết lòng cam kết với những tiến bộ mới nhất trong các phân tích đáp ứng, thời gian thực mà họ đã cho thấy họ có kế hoạch duy trì tính cạnh tranh.

    Các công ty bán lẻ trên mạng có thể được coi là “công nghệ thấp ” gần như không có ý nghĩa gì với Walmart, nhưng Alibaba, Amazon là những đối thủ nặng cân trên mặt trận sử dụng sức mạnh sắc bén của phân tích Dữ liệu lớn. Mặc dù, có nhiều thuận lợi về các lựa chọn cung cấp, thông tin khách hàng, thói quen sử dụng, sở thích và  họ sẵn sàng lên xe tới cửa hàng mua đồ. Nhưng vẫn còn một thị trường khổng lồ để các doanh nghiệp sử dụng phân tích tốt nhất để tăng hiệu quả và cải thiện trải nghiệm khách hàng của họ sẽ thành công.

    Team dịch ITAN