Hi a Châu,<div><br></div><div>Về dữ liệu thô thì Ngôn chia sẻ được, còn dữ liệu đã phân tích thì thuộc sở hữu của công ty  nên rất tiếc không chia sẻ được. Còn về chi tiết thì nếu mọi người quan tâm có dịp vào TPHCM/hoặc đang ở TPHCM thì tạt qua công ty Ngôn chơi, Ngôn demo mọi thứ và hi vọng chúng ta có thể hợp tác ở một khía cạnh nào đấy.</div>
<div><br></div><div>Một số website như Wiki đã tổng hợp bài viết sẵn cho mình nên chỉ cần download và phân tích thôi <a href="http://dumps.wikimedia.org/viwiki/20120319/">http://dumps.wikimedia.org/viwiki/20120319/</a>. Đó là lý do mà các công ty phân tích rất kết các open data :)</div>
<div><br></div><div>Ngôn</div><div><br></div><div><br><br><div class="gmail_quote">2012/3/21 Nguyen Hai Chau <span dir="ltr">&lt;<a href="mailto:nhchau@gmail.com">nhchau@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="gmail_quote"><div class="im"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>
<br>
</div>Bên mình cũng đang đụng tới những bản vài chục, vài trăm triệu records<br>
(bài báo tiếng Việt trong 5 năm),<br>
số lượng users khoảng 1 triệu, có dùng Lucence và Solr (thanks Ngôn<br>
nhiều) cũng như Sphinx trên MySQL.<br>
<div><br></div></blockquote></div><div>Thử làm một cái thống kê vui, giả sử Mr Hưng có 100 triệu bản ghi = 100 triệu bài báo tiếng Việt trong 5 năm. Như vậy,  trung bình mỗi năm 20 triệu bài, mỗi tháng 1 666 667 bài, trung bình mỗi ngày 54 795 bài được đưa lên Internet. Vậy thì đọc đến bao giờ mới hết ;-)<br>

 </div><div class="im"><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>
&gt; Ở Việt Nam thì thị trường chưa tiềm năng lắm. Hiện tại em cũng đã crawl dữ<br>
&gt; liệu từ Forums, Blog, News, Local Social, Wikipedia... Nhìn chung do đặc thù<br>
&gt; thị trường VN khá nhỏ nên crawl về cũng ...chưa biết để làm gì. Tuy nhiên<br>
&gt; với một số chính sách gần đây của chính phủ thì hi vọng thị trường này sắp<br>
&gt; tới sẽ có nhiều triển vọng.<br></div></blockquote></div><div><br>Dữ liệu này có thể xin (offline) được không Ngôn ;-)<br><br>Châu <br></div></div>
<br>_______________________________________________<br>
POST RULES: <a href="http://wiki.vfossa.vn/guidelines:mailinglist" target="_blank">http://wiki.vfossa.vn/guidelines:mailinglist</a><br>
_______________________________________________<br>
Members mailing list: <a href="mailto:Members@lists.vfossa.vn">Members@lists.vfossa.vn</a><br>
<a href="http://lists.vfossa.vn/mailman/listinfo/members" target="_blank">http://lists.vfossa.vn/mailman/listinfo/members</a><br>
VFOSSA website: <a href="http://vfossa.vn/" target="_blank">http://vfossa.vn/</a><br></blockquote></div><br></div>