§

Dán hoặc nhập

§

Metrics

Ký tự 0
Ký tự (không có khoảng trắng) 0
Từ 0
Câu 0
Đoạn văn 0
Thời gian đọc
Thời gian nói
§

Options

§

Các từ phổ biến nhất

# Từ Số lần Tần suất

Hầu hết các công cụ đếm từ trực tuyến được viết khi web còn ưu tiên tiếng Anh và vẫn tách văn bản theo khoảng trắng ASCII. Điều đó không hoạt động khi bạn dán tiếng Trung (không có khoảng trắng giữa các từ), tiếng Ả Rập (từ phải sang trái, chữ liền nhau) hay Devanagari (dấu nguyên âm gắn với phụ âm). Công cụ này dùng API Intl.Segmenter gốc của trình duyệt, mang theo quy tắc phân đoạn từ của Unicode CLDR cho mọi bộ ký tự mà tiêu chuẩn bao phủ. Văn bản tiếng Việt được đếm chính xác theo đơn vị từ ghép và âm tiết. Đối với những người viết đa ngôn ngữ, dịch giả và bất kỳ ai soạn thảo tài liệu gửi bằng nhiều ngôn ngữ, số đếm bạn thấy ở đây là số đếm mà người đọc bản ngữ sẽ mong đợi.

Từ được đếm như thế nào?

Công cụ này đếm từ bằng API Intl.Segmenter tích hợp của trình duyệt (Chrome 87+, Firefox 125+, Safari 14.1+) khi có sẵn, xử lý mọi bộ ký tự — Latin, Trung Quốc, Ả Rập, Devanagari, Nhật, Hàn, Cyrillic — với ranh giới từ chính xác về mặt ngôn ngữ học từ Unicode CLDR. Khi Intl.Segmenter không có sẵn, nó dự phòng sang biểu thức chính quy nhận biết Unicode (/\p{L}+/gu) khớp với bất kỳ chuỗi chữ cái Unicode nào. Hầu hết các công cụ cạnh tranh tách trên khoảng trắng ASCII và bỏ sót mọi thứ ngoài bảng chữ cái Latin; công cụ này thì không.

Cách đếm hoạt động

Sáu bước xảy ra trong trình duyệt của bạn trên mỗi lần nhấn phím. Không ai trong số chúng chạm vào mạng. Toàn bộ pipeline chạy dưới một mili giây cho đầu vào dài đoạn văn điển hình và xử lý bản thảo 100.000 từ mà không bỏ frame.

  1. Văn bản của bạn được đọc từ textarea và giữ trong bộ nhớ trình duyệt — không gì rời khỏi thiết bị của bạn.
  2. Đếm ký tự dùng toán tử spread của JavaScript ([...text].length) để đếm code point Unicode, vì vậy emoji như 🙂 đếm là 1 ký tự bất kể mã hóa UTF-16 nội bộ của chúng.
  3. Đếm từ dựa vào Intl.Segmenter với granularity: 'word', lọc theo các phân đoạn có isWordLike là true. Văn bản tiếng Trung và Nhật Bản nơi từ không được tách bằng khoảng trắng đếm một phân đoạn mỗi ký tự.
  4. Đếm câu dùng Intl.Segmenter với granularity: 'sentence', xử lý viết tắt, dấu chấm lửng và các trường hợp đặc biệt của dấu câu tốt hơn cách tách đơn giản theo dấu chấm.
  5. Đếm đoạn văn tách trên một hoặc nhiều dòng trống (\n\s*\n) và lọc các phân đoạn rỗng.
  6. Thời gian đọc và nói chia số từ cho tốc độ WPM đã cấu hình (mặc định: 200 đọc, 130 nói) và định dạng kết quả thành phút và giây.

Tại sao đếm từ?

  • Giới hạn bài luận và nộp bài. Đề bài đại học giới hạn câu chuyện cá nhân ở 650 từ (Common App), 500 từ (hầu hết UCAS cá nhân của Anh) hay 4.000 ký tự có khoảng trắng. Biết số đếm của bạn trước khi nộp có nghĩa là không cần cắt giảm vào phút chót dưới áp lực.
  • SEO và lập kế hoạch nội dung. Các nhóm chất lượng tìm kiếm dùng số từ như một proxy thô cho độ sâu chủ đề, và các trang dài từ 1.500 đến 2.500 từ liên tục xếp hạng cao hơn các bài đăng mỏng cho các truy vấn cạnh tranh. Theo dõi số đếm khi bạn soạn thảo giữ bản thảo trong khoảng đó mà không cần đệm.
  • Kích thước mạng xã hội. X giới hạn bài đăng ở 280 ký tự, bài viết LinkedIn ở 110.000, caption Instagram ở 2.200 và meta description ở khoảng 160. Ô ký tự hiển thị con số chính xác trước khi bạn dán vào trình soạn thảo nền tảng và phát hiện nó bị cắt.
  • Ước tính phiên âm và bài thuyết trình. Thời gian đọc ở 200 WPM khớp với đọc thầm trung bình; thời gian nói ở 130 WPM khớp với cách diễn đạt trò chuyện. Dùng cả hai để định cỡ một đoạn podcast, lên kế hoạch cho buổi nói chuyện nhanh 5 phút hay ước tính thời gian lồng tiếng trước buổi ghi âm.

Ứng dụng phổ biến

Đếm từ và ký tự xuất hiện trong công việc viết, nội dung và phát triển, và engine nhận biết Unicode của công cụ quan trọng nhất cho các nhóm gửi nội dung bằng nhiều ngôn ngữ:

  • Viết học thuật: theo dõi tiến độ đến mục tiêu chương của luận văn hay xác minh rằng tóm tắt vẫn trong giới hạn ký tự của tạp chí trước khi nộp.
  • Copy marketing và UX: đo dòng chủ đề, tiêu đề hero hay nhãn nút CTA theo ngân sách ký tự mà nhà thiết kế đã đặt trong Figma.
  • Viết bài phát biểu và podcast: chuyển đổi script thành thời gian dự kiến để bạn biết keynote có chạy dài không trước ngày diễn tập.

Ví dụ đếm từ trông như thế nào?

Lấy mẫu ba đoạn này. The quick brown fox jumps over the lazy dog. The sentence above is a pangram — it contains every letter of the English alphabet, which is why typographers and font designers use it to preview a typeface. Pangrams date back at least to the 19th century, when telegraph operators used short letter-complete sentences to test transmission accuracy. Today they show up in font specimens, keyboard tests, and the default placeholder text of every design app from Figma to InDesign. Dán vào ô nhập liệu và các ô số liệu báo cáo: 71 từ, 410 ký tự có khoảng trắng, 340 ký tự không có khoảng trắng, 4 câu, 3 đoạn văn, thời gian đọc khoảng 21 giây ở 200 WPM và thời gian nói khoảng 33 giây ở 130 WPM. Bảng từ phổ biến nhất bỏ qua các từ dừng như thea và hiển thị các từ nội dung chiếm ưu thế — ở đây là pangram, lettersentence. Chuyển sang văn bản tiếng Trung, Ả Rập hay Hindi và mọi ô đều tính lại theo quy tắc phân đoạn riêng của bộ ký tự đó.

Từ được đếm như thế nào?

Trong các trình duyệt hỗ trợ Intl.Segmenter (Chrome 87+, Firefox 125+, Safari 14.1+), công cụ dùng new Intl.Segmenter(locale, { granularity: 'word' }) và đếm các phân đoạn có isWordLike là true. Điều này xử lý chính xác tiếng Trung, Nhật, Ả Rập, Devanagari và mọi bộ ký tự Unicode khác. Trong các trình duyệt cũ hơn, regex dự phòng /\p{L}+/gu khớp với bất kỳ chuỗi chữ cái Unicode nào, hoạt động tốt cho các ngôn ngữ bộ ký tự Latin nhưng coi toàn bộ từ tiếng Trung hay Nhật là một phân đoạn bất kể sự vắng mặt của khoảng trắng.

Tại sao số đếm khác với MS Word?

Thuật toán đếm từ của Microsoft Word là độc quyền và xử lý từ ghép bằng dấu gạch nối, contractions và ký tự đặc biệt khác nhau giữa các phiên bản. Công cụ này đếm "won't" là một từ (một phân đoạn isWordLike), trong khi Word có thể đếm là hai. Đối với hầu hết văn xuôi, số đếm đồng ý trong khoảng 1-2%; đối với văn bản có dấu gạch nối, chúng có thể khác nhau nhiều hơn. Số đếm ký tự luôn đồng ý khi văn bản nguồn là cùng một chuỗi UTF-8.

Có hỗ trợ bộ ký tự không phải Latin (tiếng Trung, Ả Rập, Cyrillic) không?

Có. API Intl.Segmenter được thiết kế nhận biết Unicode. Tiếng Ả Rập và Hebrew (bộ ký tự từ phải sang trái) đếm chính xác; Cyrillic và Greek đếm như cách tách ranh giới từ kiểu Latin thông thường; tiếng Trung và Nhật báo cáo một phân đoạn giống từ mỗi ký tự vì các hệ thống viết đó không dùng khoảng trắng giữa các từ. Số đếm ký tự (dùng [...text].length) luôn đếm code point Unicode bất kể bộ ký tự, vì vậy emoji, ký tự CJK và chữ Latin có dấu đều đếm là 1.

Văn bản của tôi có được tải lên không?

Không. Mọi phép tính đều chạy trong tab trình duyệt của bạn bằng các API JavaScript gốc. Không gì được gửi đến máy chủ của Ultim8Soft hay bất kỳ dịch vụ bên thứ ba nào. Bạn có thể xác minh điều này bằng cách mở DevTools trình duyệt, chuyển sang tab Network, xóa nhật ký, nhập vào ô và xác nhận rằng không có yêu cầu mạng nào xuất hiện cho bước đếm.

Công cụ đếm từ này chạy hoàn toàn trong trình duyệt của bạn. Không tải lên, không tài khoản, không thư viện vendor, không analytics trên văn bản được đếm. Dán bất kỳ văn bản nào bằng bất kỳ bộ ký tự nào, xem bảy ô số liệu cập nhật khi bạn gõ và sao chép những gì bạn cần. Toàn bộ công cụ là khoảng 12 KB JavaScript tải một lần và hoạt động ngoại tuyến sau lần truy cập đầu tiên.