<div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">
<br>
</div>Bên mình cũng đang đụng tới những bản vài chục, vài trăm triệu records<br>
(bài báo tiếng Việt trong 5 năm),<br>
số lượng users khoảng 1 triệu, có dùng Lucence và Solr (thanks Ngôn<br>
nhiều) cũng như Sphinx trên MySQL.<br>
<div class="im"><br></div></blockquote><div>Thử làm một cái thống kê vui, giả sử Mr Hưng có 100 triệu bản ghi = 100 triệu bài báo tiếng Việt trong 5 năm. Như vậy,  trung bình mỗi năm 20 triệu bài, mỗi tháng 1 666 667 bài, trung bình mỗi ngày 54 795 bài được đưa lên Internet. Vậy thì đọc đến bao giờ mới hết ;-)<br>
 </div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="im">
&gt; Ở Việt Nam thì thị trường chưa tiềm năng lắm. Hiện tại em cũng đã crawl dữ<br>
&gt; liệu từ Forums, Blog, News, Local Social, Wikipedia... Nhìn chung do đặc thù<br>
&gt; thị trường VN khá nhỏ nên crawl về cũng ...chưa biết để làm gì. Tuy nhiên<br>
&gt; với một số chính sách gần đây của chính phủ thì hi vọng thị trường này sắp<br>
&gt; tới sẽ có nhiều triển vọng.<br></div></blockquote><div><br>Dữ liệu này có thể xin (offline) được không Ngôn ;-)<br><br>Châu <br></div></div>