Lấy nội dung trong một chuỗi tìm được trong file pdf

Trong file pdf có rất nhiều nội dung trong đó có dòng: "Số thứ tự: 1,CMND: 312210888".
Bây giờ làm sao tìm và lấy ra được: STT: "1" và CMND: "
312210888" ra và hiển thị lên textbox.
 

snowolf901

Tuyết Lang
vấn đề đầu tiên là làm sao đọc được file pdf đã. pdf có nhiều dạng, dạng text có, dạng image cũng có. mà là image thì bắt đầu khó rồi :)
 

taplamhacker

♥ Thanh Trâm ♥
read file
Mã:
using iTextSharp.text.pdf;using iTextSharp.text.pdf.parser;


PdfReader reader = new PdfReader(@"D:\test pdf\Blood Journal.pdf");
int intPageNum = reader.NumberOfPages;
string[] words;
string line;


    for (int i = 1; i <= intPageNum; i++)
    {
        text = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());


        words = text.Split('\n');
        for (int j = 0, len = words.Length; j < len; j++)
        {
            line = Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(words[j]));
        }
    }
khi có được chuỗi
Số thứ tự: 1,CMND: 312210888
Mã:
            string input = "Số thứ tự: 1,CMND: 312210888";            string stt = input.Split(',')[0].Split(':')[1];
            string cmnd = input.Split(',')[1].Split(':')[1];
 
Code như thế này thì duyệt từng dòng và lấy dữ liệu cả dòng ra. Ví dụ nếu trong dòng có nội dung như này: Người dùng này có Số thứ tự: 1,CMND: 312210888 và nguyên quán: Bến Tre.
Vậy mình phải làm sao lấy ra được chuỗi:
Số thứ tự: 1,CMND: 312210888 để lấy được thông tin STT và CMND.
 
Sửa lần cuối:

taplamhacker

♥ Thanh Trâm ♥
Code như thế này thì duyệt từng dòng và lấy dữ liệu cả dòng ra. Ví dụ nếu trong dòng có nội dung như này: Người dùng này có Số thứ tự: 1,CMND: 312210888 và nguyên quán: Bến Tre.
Vậy mình phải làm sao lấy ra được chuỗi:
Số thứ tự: 1,CMND: 312210888 để lấy được thông tin STT và CMND.
dùng regular expression nhé bạn
mình nghĩ bạn nên bổ sung kiến thức căn bảng trước khi làm những bài phức tạp như thế này, để tránh copy code paste xong k đọng lại được chút gì về cái mình vừa làm
 

quanltv

Sư phụ của ADMIN
dùng regular expression nhé bạn
mình nghĩ bạn nên bổ sung kiến thức căn bảng trước khi làm những bài phức tạp như thế này, để tránh copy code paste xong k đọng lại được chút gì về cái mình vừa làm
Có bạn là cao thủ trong lĩnh vực này rồi, thì lần sau mình cứ hỏi tiếp nhé :troll:
 
Em xin chào các anh chị vfo.vn,
Em là 1 dân kế toán không biết gì về lập trình, em tìm mãi mới thấy chủ đề mà em đang rất cần cho công việc.
Em xin nhờ anh @taplamhacker giúp đỡ em với ạ.

Em có 1 hóa đơn điện tử dưới dạng file .pdf và em cần lấy nội dung trong chuỗi tìm được trong file pdf đó là: mã số thuế và số hóa đơn để tự động đặt tên file pdf đó theo cấu trúc: "mã số thuế-số hóa đơn".
Vì 1 tháng hiện nay em có hàng ngàn hóa đơn điện tử để tải về và lưu. nhưng theo phương pháo thủ công hiện nay em phải mở vô từng hóa đơn điện tử để xem mã số thuế và số hóa đơn rồi đặt tên cho chúng.

Em xin nhờ anh hướng dẫn 1 cách cơ bản từ đầu đến cuối vì em không biết gì về lập trình.

Em xin chân thành cám ơn anh và các anh chị quan tâm đến em.

Trân trọng./.
 
Top