[VFOSSA] As Data Grows, So Grows Linux
Ngon Pham
phamhuungon at gmail.com
Wed Mar 21 10:30:33 ICT 2012
Hi a Châu,
Về dữ liệu thô thì Ngôn chia sẻ được, còn dữ liệu đã phân tích thì thuộc sở
hữu của công ty nên rất tiếc không chia sẻ được. Còn về chi tiết thì nếu
mọi người quan tâm có dịp vào TPHCM/hoặc đang ở TPHCM thì tạt qua công ty
Ngôn chơi, Ngôn demo mọi thứ và hi vọng chúng ta có thể hợp tác ở một khía
cạnh nào đấy.
Một số website như Wiki đã tổng hợp bài viết sẵn cho mình nên chỉ cần
download và phân tích thôi http://dumps.wikimedia.org/viwiki/20120319/. Đó
là lý do mà các công ty phân tích rất kết các open data :)
Ngôn
2012/3/21 Nguyen Hai Chau <nhchau at gmail.com>
>
>> Bên mình cũng đang đụng tới những bản vài chục, vài trăm triệu records
>> (bài báo tiếng Việt trong 5 năm),
>> số lượng users khoảng 1 triệu, có dùng Lucence và Solr (thanks Ngôn
>> nhiều) cũng như Sphinx trên MySQL.
>>
>> Thử làm một cái thống kê vui, giả sử Mr Hưng có 100 triệu bản ghi = 100
> triệu bài báo tiếng Việt trong 5 năm. Như vậy, trung bình mỗi năm 20 triệu
> bài, mỗi tháng 1 666 667 bài, trung bình mỗi ngày 54 795 bài được đưa lên
> Internet. Vậy thì đọc đến bao giờ mới hết ;-)
>
>
>> > Ở Việt Nam thì thị trường chưa tiềm năng lắm. Hiện tại em cũng đã crawl
>> dữ
>> > liệu từ Forums, Blog, News, Local Social, Wikipedia... Nhìn chung do
>> đặc thù
>> > thị trường VN khá nhỏ nên crawl về cũng ...chưa biết để làm gì. Tuy
>> nhiên
>> > với một số chính sách gần đây của chính phủ thì hi vọng thị trường này
>> sắp
>> > tới sẽ có nhiều triển vọng.
>>
>
> Dữ liệu này có thể xin (offline) được không Ngôn ;-)
>
> Châu
>
> _______________________________________________
> POST RULES: http://wiki.vfossa.vn/guidelines:mailinglist
> _______________________________________________
> Members mailing list: Members at lists.vfossa.vn
> http://lists.vfossa.vn/mailman/listinfo/members
> VFOSSA website: http://vfossa.vn/
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.vfossa.vn/pipermail/members/attachments/20120321/91eff8e9/attachment-0001.html
More information about the Members
mailing list