Apache Spark là gì

Apache Spark in-memory clusters đang là tiêu điểm chú ý của nhiều doanh nghiệp trong việc ứng dụng công nghệ vào phân tích và xử lý dữ liệu nhanh chóng. Trong bài viết này, tôi sẽ trình bày một bức tranh tổng quan nhất về Apache Spark, một trong những gỉai pháp đòi hỏi phải có khi muốn xử lý Big data.

Hadoop là gì

Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage).

Học Python từ A-Z

Python là một ngôn ngữ lập trình cấp cao, có mục đích chung, thông dịch, rất linh động và được sử dụng rộng rãi. Triết lý thiết kế của nó nhấn mạnh code dễ đọc, và cú pháp của nó cho phép lập trình để diễn tả khái niệm trong ít dòng mã hơn có thể có trong các ngôn ngữ như C++ hay Java.

Chạy Javascript khi scrape site bằng Scrapy Python

Khi scrape website mà gặp Next chuyển trang bằng Javascript, thì có lẽ sẽ cần hỗ trợ cho việc xử lý Javascript, giúp chuyển trang.

Nếu phải chọn giải pháp xử lý Javascript, thì tốc độ sẽ chậm hơn so với chỉ sử dụng Scrapy, vì bên cạnh việc xử lý html text, hệ thống sẽ phải xử lý DOM và chạy Javascript.