6 phần mềm tìm kiếm cho doanh nghiệp với dữ liệu lớn và mã nguồn mở

Apache Solr, Apache Lucene Core, Elasticsearch, Sphinx, Constellio, DataparkSearch Engine ApexKB, Searchdaimon ES, mnoGoSearch, Nutch, Xapian

1. Apache Solr

Solr là nền tảng từ dự án Apache Lucens. Các tính năng của Solr bao gồm tìm kiếm toàn văn bản mạnh mẽ (powerful full text search), trả kết quả rất nổi bật (hit highlighting), tìm kiếm sắc cạnh (faceted search), đánh chỉ mục gần như tức thời, phân nhóm động, tích hợp thêm cơ sở dữ liệu, xử lý đa dạng văn bản, và tìm kiếm không gian địa lý.

Solr được viết bằng Java. Solr chạy như một máy tìm kiếm toàn văn độc lập. Solr dùng thư viện tìm kiếm Lucene Java cho việc đánh chỉ mục toàn văn bản và tìm kiếm. Solr có tính năng REST như HTTP/XML và JSON APIs, giúp nó dễ dàng được sử dụng bởi hầu như bất cứ ngôn ngữ nào. Solor cung cấp đánh chỉ mục phân tán, nhân rộng (replication) và truy vấn cân bằng (load-balanced querying), tự động khôi phục, cấu hình tập trung.

2. Apache Lucene Core

Apache Lucene Core là một thư việc tìm kiếm văn bản được viết hoàn toàn bằng Java. Đây là một dự án mã mở, cho phép tải về sử dụng. Các tính năng nổi bật bao gồm tìm kiếm xếp hạng, các loại truy vấn mạnh như truy vấn theo cụm từ (pharse query), truy vấn theo ký tự đại diện (wildcard query), truy vấn tâm gần (proximity query), truy vấn theo phạm vi (range query), tìm kiếm theo trường định sẵn như title, author, content nhanh, tiết kiệm bộ nhớ và gợi ý kết quả hợp lý. Đó là một công nghệ thích hợp với hầu hết ứng dụng cần tìm kiếm toàn văn bản và đặc biệt là đa nền tảng.

3. Elasticsearch

Elasticesearch là một mã nguồn mở linh hoạt và mạnh mẽ, phân tán, tìm kiếm thời gian thực và lõi phân tích. Elasticsearch sử dụng Lucene bên trong để xây dựng tìm kiếm phân tán và khả năng phân tích. Các cụm Elasticsearch là đàn hồi và chúng sẽ phát hiện và loại bỏ các nút bị hỏng, và tổ chức lại chính mình để đảm bảo rằng dữ liệu được an toàn và dễ tiếp cận. Elasticsearch thông qua tập hợp mạnh mẽ của các API và DSL truy vấn, cung cấp không giới hạn những tính năng mới của công nghệ tìm kiếm.

4. Sphinx

Sphinx là một công cụ tìm kiếm toàn văn bản mã nguồn mở, cung cấp chức năng tìm kiếm toàn văn bản cho các ứng dụng của khách hàng. Sphinx có thể hoạt động như một máy chủ độc lập, kết nối với những DBMS khác (database management system) bằng giao thức mySQL, MariaDB, PostgreSQL, hoặc bằng ODBC (open database conectivity). Sphinx có thể sử dụng như một máy lưu trữ (storage engine) cho mySQL.Các tính năng chính bao gồm Batch và sự gia tăng (gần như thời gian thực) việc đánh chỉ mục toàn văn bản, hỗ trợ các thuộc tính phi văn bản (scalar, JSON, set, string), điều khiển đánh chỉ mục SQL, hỗ trợ đánh chỉ mục XML, hỗ trợ tìm kiếm phân tán và cú pháp tìm kiếm.

5. Constellio

Constellio là một máy tìm kiếm doanh nghiệp, cho phép các công ty thực hiện tìm kiếm và tìm thấy tất cả thông tin của công ty mình thông qua một giao diện. Constellio có những tính năng như tìm kiếm liên hợp tất cả thông tin của công ty, công cụ khôi phục, tự động phân loại nội dung, máy tìm kiếm hợp tác và quản lý thứ tự xuất hiện của kết quả với liên kết liên quan.

6. DataparkSearch Engine

DataparkSearch Engine là một web mã nguồn mở, dựa trên máy tìm kiếm được thiết kế để tổ chức việc tìm kiếm bên trong một website, nhóm các website, mạng nội bộ và hệ thống nội bộ. Những tính năng chính gồm hỗ trợ http, https, ftp, nntp và những schema URL mới, schema URL ảo htdb cho việc đánh chỉ mục cơ sở dữ liệu SQL, chỉ mục text/html, text/xml, text/plain, audio/mpeg (mp3) và image/gif mine type, hỗ trợ phân tích cú pháp mở rộng cho những loại văn bản khác, chỉ mục site đa ngôn ngữ sử dụng việc đàm phán nội dung …

Tham khảo:

http://www.predictiveanalyticstoday.com/top-open-source-big-data-enterprise-search-software/

Viết một bình luận