Đằng sau Monava

Posted on January 18, 2008 by dongthao

Mục đích Tìm câu trả lời cho Monava, “Google Việt Nam”

Dành cho Mọi người

Mức độ Cơ bản

Gần đây, báo chí Việt Nam và các diễn đàn đang rộ lên “scandal” về Monava, một search engine của người Việt, nhằm phục vụ cho người Việt, được một số báo lăng xê, so sánh với Google, với Baidu, và tin tưởng vào tương lai sẽ chiếm thị phần của Google tại Việt Nam. Ngay từ đầu tôi đã xác định quan điểm xem Monava như một Google-based searche engine, và những gì mà đại diện của Monava phát ngôn đang trở nên ngày càng lố bịch, đặc biệt là câu chuyện báo Thanh niên đăng.

…Có mấy anh chàng mới học lớp 11 ở Hà Nội, nghe phong thanh ở đâu có tiệm internet nào thanh lý hoặc máy tính cũ quá “đát” là lần mò tìm tới. Trong cái đám rác công nghệ đó, có những thứ đã quá lạc hậu, có thứ thì hoạt động tậm tạch, thứ thì đã “chết” ngỏm từ đời nào rồi. Mấy chàng xin, mà nếu chủ không cho thì mua lại với giá bèo, rồi mang về nhà, chất đống quanh giường ngủ. Cái nào chạy được thì dùng, cái nào hỏng thì kỳ cạch sửa cho dùng được mới thôi. Nhìn đám máy móc ngổn ngang khắp nền nhà, và cả… vắt vẻo trên tường, có lẽ không ai gọi đó là máy tính. Nhưng với những cậu học sinh ấy, có máy “ghẻ” mà thỏa chí mày mò cũng đã sướng lắm rồi. Năm 1998, khi tiếp xúc với Google – một trang web tìm kiếm thuộc vào hàng “khủng long” – Nguyễn Quang Huy đã nung nấu ý định làm ra một trang web tìm kiếm dành cho người Việt đủ sức cạnh tranh với Google tại thị trường Việt Nam. Và nhóm Monova, gồm những người bạn thân có chung mục tiêu ấy, đã ra đời từ những ngày khó khăn như thế.

Sau một thời gian mày mò, đến năm 2003, chương trình đã chạy ngon lành tại nhà. Sau thêm 3 năm hoàn thiện, năm 2006, Quang Huy nghĩ tới việc phải tìm nhà đầu tư để có thể phát triển hơn nữa. Anh chàng đã gõ cửa nhiều quỹ đầu tư, nhiều doanh nghiệp, nhưng tới đâu cũng chỉ nhận được cái lắc đầu hoài nghi: “Cậu điên rồi. Định cạnh tranh với ai, chứ cạnh tranh với Google thì sao nổi!”. Tháng 12.2006, khi biết anh Hoàng Quốc Việt, Tổng giám đốc Nguyễn Hoàng Group ra Hà Nội công tác, Quang Huy tìm cách gặp, vừa trình bày bản demo, vừa thuyết trình. “Đây là người đầu tiên chịu ngồi nghe mình từ đầu đến cuối. Sau đó anh Việt có mời Huy vào Sài Gòn tham quan công ty. Và anh Việt đã chính thức đầu tư từ 4.2007, số tiền 500.000 USD cho giai đoạn 1” – Quang Huy cho biết. Nhờ có số tiền này mà nhóm đã nâng cấp thiết bị, để ngày 15.7.2006 bản thử nghiệm đã được đưa lên website cho cư dân mạng dùng thử và đánh giá. Và tháng 12.2006, ngay khi phiên bản chính thức ra đời, website này đã thu hút trên 20.000 người sử dụng …

Không biết câu chuyện này có thật không, phải chăng báo Thanh Niên (hay đúng hơn là người PR của Monava) đang muốn “đạo” lại một Google thứ 2 ở Việt Nam, “đạo” luôn cả kịch bản của “đối thủ”? Bất kỳ ai biết về lịch sử của Google cũng thấy thật lố bịch khi đọc những dòng này.

Sáng nay một anh trong công ty gửi cho tôi một tài liệu khá dài mà anh đã dành cả đêm hôm qua để nghiên cứu và viết ra và nhờ tôi public dùm. Anh cũng một thời rất tâm huyết với search engine nên rất quan tâm đến vụ này. Đây là một tài liệu khá công phu nên tôi chuyển lên blog KTMT để ai quan tâm tham khảo, và làm cơ sở để tìm ra câu trả lời cho mình.

Đằng sau của Monava

Nguyễn Văn Dũng (iNet Solutions Corp.,)

dungnguyen@truthinet.com.vn

Những ngày gần đây theo thông tin của báo chí tôi rất lấy làm vui khi biết rằng Việt Nam đã có một động cơ tìm kiếm mạnh cỡ “google” và còn hơn thế. Tôi lấy làm vui vì đó là ước mơ khi tôi còn ở trong trường Đại Học và đề tài nghiên cứu của tôi là “Phát triển động cơ thu thập các bài báo khoa học tự động trên WWW” bằng cách cải tiến giải thuật PageRank của Google [1], nhưng cũng chính từ đây tôi phát hiện ra những sự thật đằng sau của một động cơ tìm kiếm “Made in Việt Nam” với khả năng cạnh tranh cùng với Google, Yahoo, … là như thế nào.

Khi tôi phân tích, tôi cố gắng tìm cách để nói lên những đóng góp của nhóm Monava nhưng khi thực sự khám phá tôi càng nghẹn ngào hơn và càng không biết nói thế nào vì càng nghiên cứu càng thấy đau. Đau vì khi đất nước ta đã gia nhập vào WTO nhưng có rất nhiều người, nhóm người, công ty còn đang quá hăng say “đạo code”, dùng phần mềm lậu, … và trong số đó có cả Monava. Và chúng ta bắt đầu…

1. Nguyên nhân

Không có cái gì mà không có nguyên nhân cả và Monava cũng vậy, bạn sẽ hỏi tôi nguyên nhân từ đâu và đây chính là nguyên nhân:

Google tự “làm khó cho mình”^[2]

Nguyên nhân đầu tiên phải kể đến là của Google, vì google đã cung cấp cho người dùng một API để từ đó có thể lấy được kết quả tìm kiếm thông qua công nghệ tạm dịch là “Dịch vụ web”(Web Service). Xuất phát vào nhu cầu thực tế về việc khó khăn trong phân tích kết quả từ trang web tìm kiếm của Google mà những người lập trình trong công ty này đã cung cấp cho người dùng một API dùng để truy vấn kết quả tìm kiếm, và kết quả này được định dạng rất đẹp và gọn gàng để cho người dùng sử dụng, tuỳ biến. Và tôi chắc rằng Monava đã dùng API này trong việc tìm kiếm của mình trong những ngày gần đây và trở thành đối thủ “nặng ký” cho Google? Có phải chăng do Google đã tự đưa mình vào rắc rối này và đang “tự làm khó cho mình” chăng?

Kết quả tìm kiếm của Google còn nhiều trùng lắp và chỉ giới hạn đến con số 1000 kết quả

Đây là một điều hoàn toàn đúng vì bạn nghĩ xem mỗi tháng Google xử lý trên cả nghìn Tera Byte (một nghìn tỉ bytes), một số lượng thông tin cực lớn, nên những kết quả tìm kiếm trùng lắp là hiển nhiên có. Nhưng tại sao Google dừng lại ở con số 1000 kết quả, tôi sẽ giải thích cho bạn điều này sau.

Google chưa xoá bỏ những từ nằm trong thuần phong mỹ tục của người “Việt Nam”

Đây có thể xem như một nguyên nhân vô lý, nhưng cũng xếp đặt là nguyên nhân vì đất nước chúng ta với một nền văn hoá lâu đời, chúng ta có quyền tự hào như vậy. Và đây trở thành một nguyên nhân cực kỳ lợi hại và lý thú để cho nhóm Monava đưa nó vào làm hạn chế của Google.

Người Việt Nam quá khao khát có được một động cơ tìm kiếm.

Thực như vậy, Người Trung Quốc đã cố một cỗ máy tìm kiếm của mình và chiếm 62% thị phần của về tìm kiếm thì tại sao người Việt chúng ta không có. Đây cũng là nguyên nhân để thúc đẩy các nhà đầu tư đầu tư vào các nhóm tiềm năng trong việc phát triển các cổ máy tìm kiếm vì con số lợi nhuận của nó có thể lên rất cao, và ông cha ta đã có câu “Càng cao thì té càng đau”.

Mà có thế thật không, xin mời các bạn hãy cùng tôi nhìn lại và phân tích một chút nhé..

2. Phân tích

Điểm qua một chút về Google.

Khoảng thời gian năm 1998, công ty Google được thành lập do chàng trai sinh ra trên nước Nga Sergey Brin và anh bạn Larry Page ở miền Tây nước Mỹ. Họ gặp nhau tại đại học Stanford và cũng từ đó họ bỏ học ra đi để “thay đổi thế giới” bằng công cụ tìm kiếm có khả năng cung cấp miễn phí bất kỳ thông tin nào trên mạng[3]. Giải thuật tìm kiếm của họ mang tên PageRank, một giải thuật đến giờ còn rất hay và rất kỳ thú. Tiêu chuẩn để đánh giá một trang web đang “nóng”(hot) được đề xuất là “Số lượng những trang web khác trỏ đến trang đang kiểm tra là nhiều nhất” cộng với một số tiêu chuẫn khác như “chữ đậm, chữ in nghiêng, được đặt trong thẻ H1, H2, … Hn, …” Từ đó google search đánh giá và phân loại thông tin.

Mỗi tháng google sẽ chạy lại động cơ phân loại và tính toán một lần(hiện nay thì không rõ) để có thể

cập nhật thông tin cho từng site. Do đó một site trong thời gian này là “nóng” nhưng qua một thời gian chưa chắc đã được như vậy.

Điểm qua một chút về Monava

Monava là một công ty Việt Nam được đặt tại quận cầu giấy Hà Nội, được sáng lập ngày 17-10-2007 từ ý tưởng của một số sinh viên [4]

và nhà tài trợ Công ty Nguyễn Hoàng với phương châm: “Nhiều hơn và đa dạng hơn” và công nghệ của họ là … chúng ta sẽ phân tích sau đây.

Công nghệ thời đại @

Nếu tin mắt trong những ngày gần đây có lẽ người dùng đã phát hiện ra tại sao kết quả tìm kiếm của Monava và Google(chọn tìm kiếm “những trang từ Việt Nam”) có kết quả khá giống nhau và có phần đoán được công nghệ của Monava là gì? Nhưng có lẽ mọi người thất vọng khi anh Giám đốc của Monava – một người trẻ, năng động, sáng tạo luôn quả quyết là “Tôi sẽ chứng minh…”, và hôm nay tôi cũng sẽ chứng minh..

Tại sao hai cổ máy tìm kiếm khác nhau lại có kết quả tương tự nhau đến thế? Vì hay cổ máy đã dùng chung giải thuật? Nếu dùng chung giải thuật tìm kiếm thì với số lượng kết quả tương đương nhau ắt hẳn dữ liệu sẽ tương đương nhau. Chúng ta làm một bài toán nhỏ nhé, monava ra đời cách đây vài tháng(10-2007), Google thì được 10 năm. Nếu dữ liệu của hai bên là tương đồng thì động cơ thu thập thông tin của Monava chạy nhanh gấp hằng triệu [5] lần động cơ thu thập thông tin của Google(nghe đến đây chắc Brin từ chức và Page xin nghỉ hưu), kết quả này sẽ gây shock cho nhiều người và có thể các bạn sẽ loại bỏ kết quả này. Còn một kết quả thứ hai là Monava dùng cổ máy tìm kiếm của Google để tìm kiếm thông tin, và đây là công nghệ bậc cao tôi gọi đó là “Công nghệ thời đại @”.

Tại sao google lại dừng lại con số tìm kiếm 1000 kết quả đầu tiên? Cho tôi hỏi các bạn rằng, có khi nào các bạn tìm kiếm trên Google mà bạn click đến trang 100 hoặc tìm đến kết quả 1000. Câu trả lời là có và chỉ có những thành viên của Monava làm vì họ đã cải tiến điều này? Tại sao như vậy, Google đã làm rất nhiều cuộc thăm dò thị trường và cũng đã thống kê từ rất lâu để đi đến một kết luận rằng “Những kết quả sau đó không còn ý nghĩa và người dùng sẽ không quan tâm”. Nhưng tại sao Google phải giữ những thông tin đó, vì rằng trong những lần chạy động cơ sắp xếp sau này những kết quả này còn có lợi và trở thành những yếu tố gây đột phá cho những trang khác trong cộng đồng. Điều này giải thích vì sao nếu trang của bạn được chú ý hơn thì trên Google bạn sẽ sắp xếp càng gần trang đầu tiên nhất.

Tại sao Google lại không loại các từ vi phạm “đạo đức” hay “thuần phong mỹ tục” của người Việt Nam. Nếu tôi nói với bạn rằng cái mà bạn quan niệm vi phạm hay không là do bạn chứ không phải chính những động cơ tìm kiếm làm. Vì sao? Vì không phải bạn không tìm kiếm thì người khác cũng không thích. Google được viết ra để phục vụ cho mục đích đại chúng và tất cả quốc gia do đó nó sẽ không phụ thuộc vào văn hoá của đất nước nào, Google chỉ làm nhiệm vụ của nó là “Tìm kiếm” mà thôi. Do đó, nếu một trang tìm kiếm lại bỏ đi những từ khoá sẽ không còn là những trang tìm kiếm tốt mà đôi lúc chỉ nêu những khuyến cáo cho người dùng mà thôi(ví dụ như: Bạn trên 18 tuổi thì mới được xem…). Và Google cũng đã thống kê rằng những từ khoá đó lại rất được ưa chuộng, thậm chí ở Việt Nam có tỉ lệ cũng khá cao^[6]. Vì vậy sao lại bỏ đi, cho nên cái này không xem là đóng góp.

Nói đến đây bạn đã thấy được những công nghệ bên trong của Monava rồi, nhưng thật ra Monava cũng có những đóng góp của họ.

Đóng góp của Monava.

Tuy Monava vẫn một mực khẳng định là kết quả là của họ và cho dù đó là không phải đi nữa chúng ta cũng cần xem xét đến những đóng góp của Monava đối với trang tìm kiếm là như thế nào.

Cho xem trước hình ảnh của một site.

Khi kết quả tìm kiếm được hiển thị, Monava cho người dùng một link nhỏ để xem nhanh kết quả tìm kiếm. Và khi đưa chuột đến điểm này chúng ta thấy được một hình nhỏ hiện lên và oái oăm thay người dùng cũng không quyết định được gì khi xem hình này và nó mang lại một lợi điểm là “làm chậm” thêm tiến độ của người dùng. Nhưng phân tích nguồn tôi phát hiện một kỹ thuật “đạo code” cũng công nghê thời đại @ trên trang Monava. Đó là làm thế nào để sinh ra hình nhỏ thuật ngữ tin học thường gọi đó là “Thumbnail”, một thực tế cho thấy Monava đã đạo code java script của trang http://thumbnails.iwebtool.com/ về và đổi tên thành tệp java script với tên gọi “zanava.js” mà tôi hay đùa với đồng nghiệp mình rằng “zan” ở đây là “gian lận” đó.

Trên trang web của thumbnails nó có ghi rõ ràng muốn “Adding thumbnails on your website…” thì làm như sau:

Và Monava đã làm là lấy y nguyên code của trang này và đổi thành file “zanava.js” mà không ghi tham khảo từ nguồn nào cả. Tôi đã lấy hai file này thử so sánh và kết quả ngạc nhiên cực kỳ chỉ khác nhau là: “ở file zanava.js kí tự xuống dòng có mã là 0x0A, còn ở file download từ thumbnails là 0x0D 0x0A”. Nếu là lập trình viên các bạn có thể thấy được cả hai đều là ký tự xuống dòng cả. [Để minh chứng cho điều này tôi có kèm theo hai tệp tin java script được download từ monava(zanava.js) và thumbnail(src.js)].

Tôi phân tích đến đây thì không sao kìm nén lòng mình được vì tôi muốn tìm ra một cống hiến nào đó của nhóm Monava vì tôi biết rằng nhóm đã làm việc “ngày đêm không nghĩ ngơi”. Và cuối cùng trời không phụ lòng người để tôi tìm ra được một cống hiến, tuy không là gì cả nhưng cũng mang lại một nét mới đó là, mời bạn xem tiếp dòng sau.

Giảm tốc độ tìm kiếm.

Một trong những tiện ích của trang tìm kiếm thông tin của Google là tìm nhanh và chính xác, thì bây giờ Monava là “tìm chậm hơn và giống nhau hơn”. Có lẽ đây là sự cống hiến lớn lao nhất của nhóm và chúng ta cần phải trân trọng.

3. Kết luận

Có lẽ các bạn đọc qua bài đã có thể hiểu phần nào về Monava và các bạn đã cảm nhận những gì chưa? Riêng tôi thì lòng đau như cắt vì có quá người còn chưa chú ý đến bản quyền sở hữu trí tuệ của người khác. Người ta đã lao tâm, lao lực viết ra API để cung cấp cho mình thì cuối cùng lại bị chính những API này là những “ngọn giáo” đâm vào họ.

Nhắc đến đề tài dùng kết quả tìm kiếm này tôi nhớ lại trang tìm kiếm citeseer của Tiến sĩ Steve Lawrence, Kurt Bollacker và Tiến sĩ Lee Giles(http://citeseer.ist.psu.edu/). Động cơ này lấy các tài liệu khoa học dạng PDF hoạc PS và phân loại thành những chủ đề khác nhau. Mặc dù bên dưới(backend) các tác giả này dùng Google, Yahoo, … để tìm kiếm các thông tin. Nhưng những đóng góp ở đây là vô cùng quan trọng, động cơ đã tự động phân loại, phân chia theo chủ để, theo lĩnh vực,… và đặt biệt động cơ không bao giờ là đối thủ của Google, Yahoo, … Nhưng với người dùng thì citeseer rất có ích cho công việc nghiên cứu khoa học.

Lời cuối cùng tôi muốn nói với nhóm Monava rằng nếu đã dùng kết quả thì hãy cố gắng đóng góp sức mình trong những kết quả của Google như phân loại theo văn phong,… và có rất nhiều chủ đề để các bạn làm để có ý nghĩa hơn.

Nguyễn Văn Dũng

“Words That Work; It’s Not What You Say, It’s What People Hear”.

—————————————

Chú thích

[1] LVTN Khoá 2000 Khoa CNTT Đại học BKTPHCM, tác giả Nguyễn Văn Dũng và Hoàng Trọng Minh Tuấn

[2] Ở đây có nghĩa là Monava đã dám cạnh tranh với Google về kết quả tìm kiếm

[3] Những câu chuyện thần kỳ của Google – David A. Vise và Mark Malseed.

[4] Không biết thông tin này có chính xác hay không

[5] Con số này chưa thật chính xác, nếu tính ra chắc hơn!

[6] Thông tin này có tham khảo nhưng không nhớ là ở nơi nào

About dongthao

"Man does not simply exist but always decides what his existence will be, what he will become the next moment"

View all posts by dongthao →

This entry was posted in Software Tutorial and tagged monava, search engine. Bookmark the permalink.

26 Responses to Đằng sau Monava

fnf says:

January 18, 2008 at 2:45 pm

Ngay cả không có Google làm hình mẫu, việc Monavo (hay Manova gì đó ;s mình không cần biết đến cái tên nếu nó không có chất lượng) có khả năng tìm kiếm “mạnh như Google” là một điều rất đáng ngờ.

– Để thiết kế được thuật toán tìm kiếm như của Google, người ta cần hàng năm trời để tinh chỉnh, chưa kể *giải thuật tìm kiếm của Google không ai biết ngoài Google* cả, vậy thì “cải tiến” cách nào?.
– Để index một lượng thông tin lớn như cả Internet, cần có một kho lưu trữ lớn vô hạn cùng với thời gian để index, vậy thì Movona lấy dung lượng ổ cứng và thời gian từ đâu ra?.
– Nhiều Website (như các forum) không cho guest truy cập, trừ khi đó là spiderbot của Google: Nếu không phải Google hoặc người dùng đã đăng ký thì bạn không thể index các trang Web đó được.

Lưu ý một điều nữa: sở dĩ Trung Quốc có 1 engine tìm kiếm chiếm đến “62% thị phần” (đó là từ bài viết) vì có hơn 1 tỉ người Trung Quốc cả thảy, trong số đó có bao nhiêu người dùng máy tính thì mình không rõ. Nhưng chắc là sẽ rất lớn: chính phủ Trung Quốc “nổi tiếng” là ‘không dùng hàng ngoại nhập’, vì thế người Trung Quốc chỉ biết đến engine tìm kiếm của họ cũng là điều dễ hiểu (mặc dù có thể không bằng Google).

Reply
Kiến Thợ says:

January 18, 2008 at 4:26 pm

“Nếu dữ liệu của hai bên là tương đồng thì động cơ thu thập thông tin của Monava chạy nhanh gấp hằng triệu [5] lần động cơ thu thập thông tin của Google”. Mình có đọc một tài liệu tính toán (phỏng đoán, tất nhiên) về kích thước dữ liệu mà Google đã lưu trữ thì nó không phải lớn đến mức một hãng tìm kiếm mới thành lập phải chạy nhanh gấp triệu lần (hay ngàn lần) google mới đuổi kịp google đâu.

Tuy nhiên với cơ sở vật chất mà monava đã công bố thì việc monava tự cho ra kết quả tìm kiếm như hiện nay là khó có thể tin được. Vấn đề không phải là dữ liệu mà là tìm kiếm trên cái kho dữ liệu đó. Nên mình hoàn toàn nghi ngờ những gì Manava đã công bố.

Báo Tuổi Trẻ đã đặt một câu hỏi rất có lý: “Việc đầu tư 500.000 USD vào Monava có phải là sự thổi phồng nhằm đánh bóng thương hiệu và đẩy giá trị của Nguyễn Hoàng Group lên trên thị trường tài chính cũng là một câu hỏi lớn mà dư luận đặt ra”. Dù sự thật thế nào thì sau vụ này tên tuổi Nguyễn Hoàng cũng được biết đến rộng rãi và anh em ta đang giúp Nguyễn Hoàng không công 😉

Reply
htr3n says:

January 18, 2008 at 8:33 pm

@fnf: như tác giả bài viết có đề cập, thuật toán tìm kiểm của Google là PageRank được công bố rộng rãi vì đó là công trình nghiên cứu của Lawrence (Larry) Page ở ĐH Stanford: “The anatomy of a large-scale hypertextual Web search engine” đăng trên tạp chí Computer Networks and ISDN Systems năm 1998. Công trình có sự hợp tác của Sergey Brin (đồng sáng lập Google).

Theo mình biết thì đa số các forum/site đều cho phép các SE spider lập chỉ mục (ngoại trừ những vùng dữ liệu cần phải che, ví dụ như bảo vệ thông tin cá nhân, bí mật công ty,… thì mới cấm spider). Có lẽ trong chúng ta, khi chia sẻ thông tin online thì cũng muốn quảng bá rộng rãi và muốn thông tin của mình được mọi người tìm thấy đầu tiên khi họ dùng SE (nhiều công ty phải tìm nhiều cách khác nhau để leo lên thứ hạng cao trong các SE đấy).

Nguyễn Hoàng học cách làm của FPT từ vụ iCMS, Cháo gà (Chaos) 😉

[5] Điểm claim này xem ra không hợp lí: số lượng dữ liệu được index không tuyến tính theo năm vì nhiều chỉ mục chỉ là cập nhật chứ không thêm mới. Những năm đầu tiên lượng chỉ mục rất lớn, các năm sau là incremental index nên không tuyến tính đâu 😉 Ngoài ra, chỉ mục lớn hơn không quan trọng bằng tìm kiếm chính xác hơn!

Kiểu này chắc mình phải lục lại bộ lọc kết quả tìm kiếm hồi trước làm với mấy bạn đem lên cạnh tranh với Monava chơi 😉 (cái bộ lọc này bạn Dũng có biết ấy!)

Reply
Nguyễn Văn Dũng says:

January 18, 2008 at 11:31 pm

Tuy là số lượng index không tuyến tính theo năm, nhưng số lượng website được ra đời và tính toán từ năm 1998 đến nay là một số lượng cực lớn, thêm vào đó, số lượng chủ đề hình thành và số lượng page có của mỗi trang lại càng tăng. Điều này dẫn đến việc tôi tính để lấy con số tổng quan cho việc thu thập tài liệu. Vì không có cách nào mà trong một thời gian ngắn(2-3 tháng thậm chí 1 năm) monava lại có thể có được một dữ liệu cực lớn của 10 năm và của hàng loạt động cơ tìm kiếm nhạy bén của Google. Nếu ai đã từng đọc “Google – Câu chuyện thần kỳ” thì cũng có thể thấy họ đã làm việc như thế nào. Tôi tôn trọng kết qủa của họ, và mong cho Monava Việt Nam nếu làm việc thì hãy cố gắng đóng ghóp sức mình cho những việc như phân loại, tìm kiếm ngữ nghĩa,… Nó sẽ giúp cho người Việt Nam thuận tiện hơn cho việc tìm kiếm.
Những ngày gần đây, khi Giám đốc của Monava đang ra sức chứng minh thì tôi lại càng thấy tệ. Mặc dù có một số kết quả khác nhưng điều đó không chứng minh được gì. Hãy làm việc có ý nghĩa hơn.

Reply
instcode says:

January 19, 2008 at 2:53 am

Biết về monova từ khi nó chưa được bomb rùm beng trên hàng loạt các báo á, khi đó chỉ cần “google” một phát rồi so sánh 2 kết quả là đã biết ngay liền cái engine bên dưới chỉ là một spider đơn giản parse kết quả trả về của google! Ghẻ!

CNTT Việt Nam thì nghe báo đài kêu là “phát triển liên tục”, nhưng đắp chăn thì thấy rận đầy!

Reply
fnf says:

January 19, 2008 at 1:10 pm

@htr3n: Mình không biết là PageRank của Google lại được công bố. Cũng thú vị, nhưng nhiều khả năng là sau 9 năm giải thuật đó đã thay đổi rất nhiều rồi. Google vẫn tiếp tục cải tiến Google search, như gần đây đang thử nghiệm cho phép người dùng vote các kết quả nào là chính xác nhất trong một query.

Cũng lưu ý là nếu PageRank được công bố rộng rãi thì mọi người sẽ có cách cấu hình site để nó được thứ hạng cao hơn 😉 vì thế cải tiến là điều cần phải làm.

Hầu hết các website trả tiền không cho guest truy cập, mà chỉ cho spiderbot của Google. Như experts-exchange, các e-magazine hoặc, erm, porn sites 😉 . Người dùng có thể search và thấy một phần nội dung, nhưng khi truy cập chính thức thì nó là đòi login.

Dẫn đến một work-around: người dùng có thể xem các page đó qua Google cache.

Có thể một số lượng lớn các website thương mại chỉ cập nhật webpage của họ, nhưng các forums, các site lưu trữ như ask, answers, wikipedia… dung lượng sẽ tăng theo thời gian, các site như vậy lại chiếm phần lớn dữ liệu text được tải trên Internet.

Vì thế nó tăng tuyến tính 😉 . Ví dụ như Digg, Slashdot là khủng nhất.

Reply
htr3n says:

January 19, 2008 at 11:52 pm

Giải thuật PageRank là xương sống của Google và ít có thay đổi lớn. Giải thuật vẫn thế, nhưng có các cải tiến về cơ chế weighting khi tính độ quan trọng tương đối của rank. Mà cơ chế weighting thì không có con số tối ưu mà phải tinh chỉnh suốt. Do đó không ai biết rõ Google dùng trọng số nào để xếp hạng một trang, mặc dù biết rõ giải thuật 😉 Thế nên có rất nhiều tips và tricks để tăng thứ hạng Google, ví dụ như người có PR cao thì bán PR, hoặc lập group tự tham chiếu nhau để tăng rank,…

Monava có thể dựa trên PageRank mà cải tiến thành giải thuật mới (supposed nhưng không chắc!). Nhưng khổ cái là SE nào cũng phải có index kha khá thì mới cho kết quả tốt được. Như mình có nói ở #3, không nhất thiết phải index cho bằng Google làm gì, vì index nhiều không quan trọng bằng kết quả tốt. Hiện tại Google, Yahoo, MSN tìm tiếng Việt chưa được hay cho lắm, có thể cải tiến thêm. Ban đầu có thể sử dụng kết quả từ nhiều nguồn Google, Yahoo, MSN,… rồi lọc lại, miễn là rule lọc của mình càng thông minh càng tốt (nhận ra từ tiếng Việt của các encoding khác nhau, nhận dạng cụm từ, sự tương đồng ngữ nghĩa của từ,…).

Reply
neoone says:

January 20, 2008 at 10:25 am

Có lẽ nó chỉ là một công cụ lăng xê cho một công ty nào đấy thôi, thực chất nó không thể và không nên so sánh với google, rất khập khiển và làm mọi người thiếu tin tưởng vào nó.

Reply
InstCode says:

January 22, 2008 at 3:18 am

Cái này có vẻ giống như phe vé chợ đen tuyên bố cạnh tranh với rạp hát vậy nhỉ?

Reply
dongthao says:

January 22, 2008 at 4:10 am

Mình mới vào trang about của Monava xem, thì biết được thêm thông tin này về cái tên:

Monava là viết tắt của cụm từ “MOre ANd VArious” tức là “Nhiều hơn và đa dạng hơn” . Đó chính là phương châm hoạt động của Monava “Nhiều hơn và đa dạng hơn để đáp ứng những nhu cầu thiết thực nhất, hữu ích nhất cho cộng đồng và xã hội.

Nhiều hơn và đa dạng hơn!

Reply
dv2n says:

January 22, 2008 at 9:24 am

Nói chung cạnh tranh với Google không dễ tí nào!

Reply
Dao Manh Hieu says:

January 23, 2008 at 4:17 pm

Xin mời tham khảo:
http://www-306.ibm.com/software/data/enterprise-search/omnifind-enterprise/

Reply
Mạnh Tuấn says:

January 25, 2008 at 7:15 am

Nếu Huy Remy không tuyên bố hùng hồn như trên báo chắc tôi đã đánh giá Monava cao hơn.

Xin phép tác giả copy bài này về http://problog.sky.vn để mọi người cùng đọc

Reply
Nhím Lông Xanh says:

January 25, 2008 at 8:31 am

Bài phân tích rất hay và có chiều sâu. Tớ xin copy bài này về cho mọi người cùng xem nhé 😀

Reply
Pingback: » Bình luận : Đằng sau Monava !!! Nhím Lông Xanh - Chuyên Trang Của Gia Đình Nhà Nhím: Kinh Doanh | Văn Học | Giải Trí Tổng Hợp
vitconan says:

March 6, 2008 at 5:17 pm

mình là fe trung lập đây hehe, lý do?
1.google là bộ máy tìm kiếm thông minh nhất thế giới – suy nghĩ của riêng mình thôi
2.cái chuyện “đạo code” là hoàn toàn có thể, mình gặp rất nhiều trường hợp bọn lập trình viên làm việc này, monava chưa chắc là trường hợp ngoại lệ
3.nếu thực hiện 1 cuộc thống kê trong 10 năm để khảo sát về lượt truy cập của người Việt vào google và monava, thì mình nghĩ google luôn là #1

Reply
vitconan says:

March 6, 2008 at 5:24 pm

API. thực sự là mình ko rành về cái vụ API nhưng mình nghĩ monav chẳng có cái cỗ máy nào làm API cả, cái trang kết quả của monav chắc là copy từ google về. Minh dùng sản phẩm của google nhiều mình thấy cái giao diện API (và ajax) nhiều lắm. Google sử dụng rất triệt để nên tốc độ load của google rất nhanh

Reply
rilwis says:

March 12, 2008 at 12:50 pm

Bản thân tớ thấy bài viết này thiếu những minh chứng rõ ràng, tớ xin liệt kê 1 vài điểm mà bài đã lấy làm cơ sở lí luận:
– Kết quả tìm kiếm giống nhau
– Google có public API và thuật toán PageRank
– 1 số từ ‘gốc Việt’
– cơ sở vật chất để index
– javascript thumbnail

Nếu xem xét kĩ về nội dung bài viết, sẽ thấy điểm cuối cùng về javascript là hoàn toàn ok, nghĩa là monava hoàn toàn sai trong việc sử dụng open source mà không ghi rõ nguồn gốc. Điểm kề cận về cơ sở vật chất cũng có thể là 1 cơ sở, mặc dù thực tế nó được dư luận nghi ngờ hơn là chứng minh.

Còn xem các điểm ở trên, những điểm mấu chốt của việc nhận định 1 SE, tất cả chỉ là suy luận và võ đoán. Không tìm được 1 cơ sở nào để có thể chỉ ra điều đó. Nếu so sánh 1 số SE khác với Google, khả năng có nhận định giống như vậy cũng rất cao. Nếu tranh luận kiểu này mà không đưa ra được bằng chứng, tỉ dụ như mục javascript đã làm, thì có thể tranh luận đến mấy năm vẫn không có kết luận gì chắc chắn. Vì thế cho nên những điểm này cần phải thu thập thêm thông tin, bằng chứng sát thực, minh họa rõ ràng cho luận điểm thì mới có cơ sở để làm 1 phản bác.

Reply
matrixvn says:

March 16, 2008 at 6:08 pm

Chỉ có 1 điều đơn giản nhất mà ai cũng thấy đó là dữ liệu. Google mất 10 năm để có dữ liệu như ngày hôm nay thì 100 năm nữa Monava ko bao giờ đuổi kịp. Làm SE mà số server đếm trên đầu ngón tay thì thật nực cười. Ngoài ra chưa thấy SE nào dám mạnh miệng công bố database giống như Monava. Nếu G, Y,.. có công bố database chắc chả có ai dám xem đống dữ liệu đó.

Reply
fives says:

March 24, 2008 at 6:06 pm

…Có mấy anh chàng mới học lớp 11 ở Hà Nội, nghe phong thanh ở đâu có tiệm internet nào thanh lý hoặc máy tính cũ quá “đát” là lần mò tìm tới. Trong cái đám rác công nghệ đó, có những thứ đã quá lạc hậu, có thứ thì hoạt động tậm tạch, thứ thì đã “chết” ngỏm từ đời nào rồi. Mấy chàng xin, mà nếu chủ không cho thì mua lại với giá bèo, rồi mang về nhà, chất đống quanh giường ngủ. Cái nào chạy được thì dùng, cái nào hỏng thì kỳ cạch sửa cho dùng được mới thôi. Nhìn đám máy móc ngổn ngang khắp nền nhà, và cả… vắt vẻo trên tường, có lẽ không ai gọi đó là máy tính. Nhưng với những cậu học sinh ấy, có máy “ghẻ” mà thỏa chí mày mò cũng đã sướng lắm rồi. Năm 1998, khi tiếp xúc với Google – một trang web tìm kiếm thuộc vào hàng “khủng long” – Nguyễn Quang Huy đã nung nấu ý định làm ra một trang web tìm kiếm dành cho người Việt đủ sức cạnh tranh với Google tại thị trường Việt Nam. Và nhóm Monova, gồm những người bạn thân có chung mục tiêu ấy, đã ra đời từ những ngày khó khăn như thế.

Lúc đọc đến cái đọan này cũng cảm thấy nó làm sao đó, nhưng không thể diễn tả được như bạn :), nghe bà con nói nhiều về cái mono này rồi, nhưng bài viết của bạn là hay nhất :), mình cũng copy về web mình luôn 🙂 thanks

Reply
Pingback: Báo lá cải » Blog Archive » Đằng sau Monava
nguyenhai says:

June 19, 2008 at 4:24 pm

em xin noi that voi cac bac la cai trang nay thuoc vao cai loai hang qua lom. em thi chang biet gi ve it roi nhung ma ngay moi ra mat thay len ca ti vi noi nang hoanh trang lam. dot dau em vao tim nhac thi thay tim bai nao cung co. nhung ma tu dot bao an cap thuat toan cua google vao tim bai nhac ma no chang tim dc bai nao. dung la… chang biet noi the nao…! cha nhe lai chui nguoi viet minh. nghi ma thay nhuc.
xin loi em dung opera khong viet dc tieng viet co dau

Reply
nguyenhai says:

June 19, 2008 at 4:30 pm

xin loi em lai tiep tuc noi. cai hom len tivi noi hoanh trang do em thay bao khong tim web den roi anh xxx, the ma vao tim thu vao liet ke hang loat. day la nay trc. con nay thi khi tim kiem web nhieu khi lai thay bao khong tim thay yeu cau nao ca. lai con dang ky thanh vien, moi ngay co 10 tn mien fi. that su la em khong muon viet nua, khong thi em lai chui bay o day. ngay dau moi vao tim web va nhac cam thay thick. nhung ma…….thoi khong noi nua khong lai chui bay. thong cam em dung opera cu khong viet dc tieng viet co dau.

Reply
Nguyễn Hoàng Tú says:

September 4, 2008 at 6:59 am

Ủa, vào đây đọc được bài của anh Dũng he? Bài viết hay lắm, vỗ tay phát, he he

Không biết monava đặt mấy cái keyword này để chi trong khi bản thân tự cho là 1 SE ngang hàng với Google

Reply
Nguyễn Hoàng Tú says:

September 4, 2008 at 7:02 am

meta name="author" content="monava@monava.vn Monava Co., Ltd."
meta name="description" content="Monava Search Engine, Free Music Online, VietNam, United States, United Kingdom" meta name="keywords" content="music, movies, free music, music online, online music, nghe nhac online, nghe, nhac, online, xem phim, nghe nhac, video clip" meta name="keywords" content="Giaidieu, Amnhac, Am nhac, AMNHAC, AM NHAC, amnhac, am nhac, ca si, casi, nhac si, nhacsi, nhacsy, dien dan, diendan, ket ban, ketban, bai hat, baihat, nhac, nghe nhac, nghenhac, tin tuc, tintuc, thoi su, thoisu, phongsu, phong su, binh luan, binhluan, phong van, phongvan, duymanh, lam truong, dan truong, lamtruong, dantruong, my tam, mytam, phuong thanh, phuongthanh, ung hoang phuc, van nghe, vannghe, nghe si, nghesi, m" meta name="abstract" content="Thư viện m nhạc trực tuyến miễn ph c 1 ty bi ht, 4.576 album, tiểu sử 18.143 ca sĩ, nhạc sĩ"
meta name="robots" content="follow,index"

Reply
noithathoaphat says:

August 31, 2010 at 4:59 am

như tác giả bài viết có đề cập, thuật toán tìm kiểm của Google là PageRank được công bố rộng rãi vì đó là công trình nghiên cứu của Lawrence (Larry) Page ở ĐH Stanford: “The anatomy of a large-scale hypertextual Web search engine” đăng trên tạp chí Computer Networks and ISDN Systems năm 1998. http://noithathoaphat.com Công trình có sự hợp tác của Sergey Brin (đồng sáng lập Google).

Theo mình biết thì đa

Reply