[VFOSSA] As Data Grows, So Grows Linux

Nguyen Hai Chau nhchau at gmail.com
Wed Mar 21 09:55:33 ICT 2012


>
>
> Bên mình cũng đang đụng tới những bản vài chục, vài trăm triệu records
> (bài báo tiếng Việt trong 5 năm),
> số lượng users khoảng 1 triệu, có dùng Lucence và Solr (thanks Ngôn
> nhiều) cũng như Sphinx trên MySQL.
>
> Thử làm một cái thống kê vui, giả sử Mr Hưng có 100 triệu bản ghi = 100
triệu bài báo tiếng Việt trong 5 năm. Như vậy,  trung bình mỗi năm 20 triệu
bài, mỗi tháng 1 666 667 bài, trung bình mỗi ngày 54 795 bài được đưa lên
Internet. Vậy thì đọc đến bao giờ mới hết ;-)


> > Ở Việt Nam thì thị trường chưa tiềm năng lắm. Hiện tại em cũng đã crawl
> dữ
> > liệu từ Forums, Blog, News, Local Social, Wikipedia... Nhìn chung do đặc
> thù
> > thị trường VN khá nhỏ nên crawl về cũng ...chưa biết để làm gì. Tuy nhiên
> > với một số chính sách gần đây của chính phủ thì hi vọng thị trường này
> sắp
> > tới sẽ có nhiều triển vọng.
>

Dữ liệu này có thể xin (offline) được không Ngôn ;-)

Châu
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.vfossa.vn/pipermail/members/attachments/20120321/87be6663/attachment.html 


More information about the Members mailing list